implementasi extreme learning machine dalam...

IMPLEMENTASI EXTREME LEARNING MACHINE DALAM

PREDIKSI INTERAKSI PROTEIN HIV-1 DENGAN MANUSIA

BERDASARKAN BARISAN ASAM AMINO

SKRIPSI

Wina Rahmawati

11150940000056

PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UIN SYARIF HIDAYATULLAH JAKARTA

2020 M / 1441 H

i

IMPLEMENTASI EXTREME LEARNING MACHINE DALAM

PREDIKSI INTERAKSI PROTEIN HIV-1 DENGAN MANUSIA

BERDASARKAN BARISAN ASAM AMINO

Skripsi

Diajukan kepada

Universitas Islam Negeri Syarif Hidayatullah Jakarta

Fakultas Sains dan Teknologi

Untuk Memenuhi Salah Satu Persyaratan Dalam

Memperoleh Gelar Sarjana Matematika (S.Mat)

Oleh :

Wina Rahmawati

11150940000056

PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UIN SYARIF HIDAYATULLAH JAKARTA

2020 M / 1441 H

ii

PERNYATAAN

iii

LEMBAR PENGESAHAN

v

PERSEMBAHAN DAN MOTTO

PERSEMBAHAN

Kepada Rabb Yang Maha Esa

Yang telah memberikan berbagai macam nikmat dan karunia kepada

penulis hingga detik ini

Kepada Ayah dan Ibu Tercinta

Terima kasih ayah dan ibu untuk semua hal yang telah adinda terima.

Adinda paham bahwa kesuksesan adinda hingga detik ini tidak terlepas

dari segala usaha dan do’a ayah dan ibu. Maafkan adinda kalau selama

ini adinda belum dapat membuat bangga ayah dan ibu dengan kehadiran

adinda.

MOTTO

“Sungguh, orang-orang yang beriman dan mengerjakan

kebajikan, mereka itu adalah sebaik-baik makhluk.”

(Q.S. Al-Bayyinah[98] ayat 7)

vi

KATA PENGANTAR

Puji syukur penulis ucapkan kehadirat Allah Yang Maha Esa atas segala

rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi yang

berjudul “Implementasi Extreme Learning Machine dalam Prediksi Interaksi

Protein HIV-1 dengan Manusia berdasarkan Barisan Asam Amino”.

Skripsi ini merupakan persyaratan bagi penulis untuk bisa memperoleh gelar

sarjana. Dalam penulisan skripsi ini penulis memperoleh pembelajaran berharga

seperti kerja keras, pantang menyerah dalam mencapai tujuan, dan melatih

kesabaran.

Dalam penyusunan skripsi ini, penulis memperoleh banyak motivasi,

dukungan, inspirasi, bimbingan, do‟a, serta saran dan kritikan dari berbagai pihak

sehingga skripsi ini dapat terselesaikan dengan baik. Oleh karena itu, penulis

ingin menyampaikan rasa terima kasih penulis kepada :

1. Prof. Dr. Lily Surayya Eka Putri, M.Env.Stud, selaku Dekan Fakultas

Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah

Jakarta.

2. Dr. Suma‟inna, M.Si, selaku Ketua Program Studi Matematika Fakultas

Sains dan Teknologi UIN Jakarta dan sebagai dosen pembimbing I yang

telah memberikan masukan kepada penulis dalam menyelesaikan skripsi

ini.

3. Irma Fauziah, M.Sc, selaku Sekretaris Program Studi Matematika

Fakultas Sains dan Teknologi UIN Jakarta dan dosen pembimbing

akademik.

vii

4. Mohamad Irvan Septiar Musti, M.Si, sebagai pembimbing II, terima kasih

atas pengarahan, pembelajaran, motivasi, dan senantiasa bersabar untuk

memberikan banyak sekali saran dan bantuan kepada penulis dalam

menyelesaikan skripsi ini.

5. Dr. Taufik Edy Sutanto, MScTech, sebagai penguji I yang telah

memberikan masukan kepada penulis dalam menyelesaikan skripsi ini

6. Muhammad Manaqib, M.Sc, sebagai penguji II yang telah memberikan

masukan kepada penulis dalam menyelesaikan skripsi ini.

7. Bapak Yusuf dan Bapak Deni, selaku pengawas laboratorium Matematika

yang telah mengizinkan peneliti menggunakan laboratorium komputer

matematika.

8. Seluruh Ibu dan Bapak Dosen Program Studi Matematika yang telah

memberikan ilmunya dan pengalaman yang bermanfaat.

9. “My Super Humans”, kedua orang tua peneliti, Winarto dan Sunaeni,

yang tidak pernah berhenti berdo‟a untuk kesuksesan penulis,

memberikan kasih sayang, semangat, serta dukungan sehingga penulis

dapat menyelesaikan skripsi ini dengan baik.

10. Adik tercinta Yuda Isnanto yang telah memberikan dukungan dan

semangat kepada penulis dalam menyelesaikan skripsi ini.

11. Seluruh teman-teman Matematika 2015, terutama Afra, Eka, Vernia,

Rara, Indri, Early, Nurul, Nengtya, Nadya yang telah menemani susah

senang peneliti dalam perkuliahan ini mulai semester awal, Ery yang

menjadi teman seperjuangan tigaraksa di jurusan ini dan senantiasa

memotivasi penulis dalam menyusun skripsi ini, Shinta yang telah

membantu peneliti dalam memahami bahasa python dan teman lab serta

perpustakaan, dan Rahil yang menjadi teman lab dan perpustakaan dalam

menyusun skripsi ini.

12. Ika Putri Puji Lestari yang telah membantu peneliti dalam memahami data

serta permasalahan interaksi protein dan global encoding.

viii

13. Kepada teman-teman seperjuangan Komda FST 2017 terutama Nada,

Firdha dan Yanti. Terima kasih atas semangat dan do‟a sehingga penulis

bisa menyelesaikan skripsi ini.

14. Seluruh pihak yang telah membantu penulis dalam menyelesaikan skripsi

ini yang tidak bisa penulis sebutkan satu-persatu tanpa mengurangi rasa

hormat.

Penulis menyadari bahwa dalam penyusunan skripsi ini masih terdapat

banyak kekurangan. Penulis mengharapkan kritik dan saran yang membangun dari

pembaca untuk perbaikan di masa yang akan datang. Terakhir, semoga skripsi ini

bermanfaat bagi penulis dan pembaca sekalian.

Ciputat, 10 Januari 2020

Penulis

ix

LEMBAR PERNYATAAN PERSETUJUAN

PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

ABSTRAK

Wina Rahmawati, Implementasi Extreme Learning Machine dalam Prediksi

Interaksi Protein HIV-1 dengan Manusia Berdasarkan Barisan Asam Amino, di

bawah bimbingan Dr. Suma’inna, M.Si dan M. Irvan Septiar Musti, M.Si.

Penelitian untuk mengembangkan metode komputasi dalam memprediksi

interaksi protein secara cepat dan efisien menjadi suatu tantangan tersendiri dalam

penelitian interaksi protein HIV (Human Immunodeficiency Virus) dengan

manusia. Penelitian ini menggunakan data barisan asam amino protein yang akan

di ekstraksi fiturnya menggunakan Global Encoding (GE). Data hasil GE ini

memiliki korelasi cukup tinggi antar variabel bebasnya, sehingga akan

dibandingkan pada data GE yang tidak direduksi dimensinya dengan Principle

Component Analysis (PCA) dan data tanpa PCA. Kemudian kedua data ini akan

dijadikan sebagai data masukan pada model ELM (Extreme Learning Machine)

yang menguji sepuluh fungsi aktivasi berbeda dengan sembilan belas neuron

hidden layer pada ELM. Selain itu, matriks Moore-Penrose generalized Inverse

dihitung menggunakan metode Singular Value Decomposition. Hasil dari

penelitian ini menunjukkan bahwa model terbaik pada data GE tanpa dilakukan

PCA terjadi pada saat dengan fungsi aktivasi multiquadric dan neuron

hidden layer sebanyak 1000 neuron, menghasilkan akurasi sebesar , recall

sebesar , spesifisitas sebesar , presisi sebesar , dan f1-score

sebesar . Kemudian data dengan PCA diperoleh nilai akurasi sebesar

, recall sebesar , spesifisitas sebesar , presisi sebesar ,

dan f1-score sebesar . Dapat disimpulkan bahwa PCA tidak meningkatkan

performa pada model ELM dalam prediksi interaksi protein HIV-1 dan manusia,

sehingga data GE tanpa PCA memiliki performa lebih tinggi daripada data GE

dengan PCA.

Kata Kunci : Global Encoding, Extreme Learning Machine, Matriks Moore-

Penrose Generalized Inverse, Singular Value Decomposition, Principal

Component Analysis

i

ABSTRACT

Wina Rahmawati Implementation of Extreme Learning Machine in Predicting

Protein Interaction of HIV-1 and Humans Based On Amino Acid Sequences, by

Dr. Suma’inna, M.Si dan M. Irvan Septiar Musti, M.Si.

Research to develop computational methods in predicting protein interactions

quickly and efficiently becomes a challenge in research into the interaction of

HIV proteins (Human Immunodeficiency Virus) with humans. This research uses

protein amino acid sequences that will be extracted using Global Encoding (GE)

features. This GE data has a fairly high correlation between independent variables,

so it will be compared to GE data that are not reduced in dimensions with

Principle Component Analysis (PCA) and data without PCA. Then these two data

will be used as input data on the ELM (Extreme Learning Machine) model which

hyperparameter is used ten different activation functions with nineteen hidden

neurons in ELM. In addition, the generalized Inverse Moore-Penrose matrix is

calculated using the Singular Value Decomposition method. The results of this

research that the best model of data without PCA occurs when L = 2 with

multiquadric and hidden neuron activation functions of 900 neurons, resulting in

an accuracy of 69,5%, recall of %, specificity %, precision %, and

precision f1 score of %. Then for the best model on data with PCA obtained

an accuracy value of 62.5%, recall of 70,1%, specificity of 54,6%, precision of

63.9%, and f1-score of 58.9%. It can be concluded that PCA did not improve the

performance of the ELM model in predicting the interaction of HIV-1 and human

proteins, and data GE without PCA has higher perform than GE with PCA.

Keywords : Global Encoding, Extreme Learning Machine, Moore-Penrose

Generalized Inverse, Singular Value Decomposition, Principal Component

Analysis

ii

DAFTAR ISI

PERNYATAAN................................................................................................................. ii

LEMBAR PENGESAHAN ............................................................................................. iii

KATA PENGANTAR ...................................................................................................... vi

LEMBAR PERNYATAAN PERSETUJUAN ............................................................... ix

ABSTRAK ...........................................................................................................................

ABSTRACT ........................................................................................................................ i

DAFTAR ISI...................................................................................................................... ii

DAFTAR TABEL ............................................................................................................ iv

DAFTAR GAMBAR ......................................................................................................... v

BAB I PENDAHULUAN .................................................................................................. 1

1.1 Latar Belakang ........................................................................................... 1

1.2 Rumusan Masalah ...................................................................................... 6

1.3 Batasan Masalah ......................................................................................... 6

1.4 Tujuan Penelitian ....................................................................................... 6

1.5 Manfaat Penelitian ..................................................................................... 7

BAB II LANDASAN TEORI ........................................................................................... 8

2.1 Interaksi Protein ......................................................................................... 8

2.2 Human Immunodeficiency Virus ............................................................... 8

2.3 Artificial Neural Network ............................................................................ 9

2.4 Fungsi Aktivasi ......................................................................................... 11

2.5 Feedforward Neural Network ................................................................... 12

2.6 Vektor ........................................................................................................ 13

2.7 Matriks ...................................................................................................... 13

2.8 Nilai Eigen dan Vektor Eigen .................................................................. 14

2.9 Singular Value Decomposition ................................................................. 14

2.10 Matriks Moore-Penrose Generalized Inverse ........................................ 19

2.11 Principle Component Analysis (PCA) .................................................... 19

2.12 Hold-Out .................................................................................................. 20

2.13 Grid Search Cross Validation ................................................................. 20

2.14 Evaluasi Performa Model ...................................................................... 21

BAB III METODOLOGI PENELITIAN ..................................................................... 21

iii

3.1 Data Penelitian .......................................................................................... 21

3.2 Global Encoding ........................................................................................ 22

3.3 Extreme Learning Machine ...................................................................... 27

3.4 Alur Penelitian .......................................................................................... 34

BAB IV HASIL DAN PEMBAHASAN ........................................................................ 37

4.1 Karakteristik Data Hasil Global Encoding ............................................ 37

4.2 Data Hasil PCA ......................................................................................... 46

4.3 Hasil Grid Search CV ............................................................................... 50

4.4 Hasil Evaluasi Model ................................................................................ 52

BAB V PENUTUP ........................................................................................................... 51

5.1 Kesimpulan ............................................................................................... 51

5.2 Saran .......................................................................................................... 52

REFERENSI .................................................................................................................... 51

LAMPIRAN..................................................................................................................... 51

iv

DAFTAR TABEL

Tabel 2.1 Fungsi Aktivasi .................................................................................... 11

Tabel 2.2 Confusion Matrix .................................................................................. 21 Tabel 3.1 Sifat Fisiokimia Protein .................................................................................... 22

Tabel 3.2 Data Ilustrasi Extreme Learning Machine........................................................ 30

Tabel 3.3 Bobot Awal dari Data Ilustrasi ......................................................................... 31

Tabel 3.4 Hasil Klasifikasi dari Data Ilustrasi ................................................................. 33

Tabel 4.1 Statistika Deskriptif Parameter .............................................................. 37 Tabel 4.2 Statistika Deskriptif Parameter .............................................................. 38

Tabel 4.3 Statistika Deskriptif Parameter .............................................................. 38



Tabel 4.6 Nilai Korelasi Hasil Global Encoding.............................................................. 42

Tabel 4.7 Nilai Explained Variance Ratio ....................................................................... 46

Tabel 4.8 Korelasi Antar Variabel PCA ........................................................................... 46

Tabel 4.9 Statistika Deskriptif PCA dari ............................................................... 47

Tabel 4.10 Statistika Deskriptif PCA dari ............................................................. 47

Tabel 4.11 Statistika Deskriptif PCA dari ............................................................. 48

Tabel 4.12 Statistika Deskriptif ............................................................................. 48

Tabel 4.13 Statistika Deskriptif ............................................................................. 49

Tabel 4.14 Nilai Korelasi Antar Variabel PC ................................................................... 49

Tabel 4. 15 Hasil Grid Search CV pada Data Train ........................................................ 50

Tabel 4. 16 Hasil Grid Search CV pada Data PCA ......................................................... 51

Tabel 4.17 Hasil Evaluasi Model Data Tanpa PCA ......................................................... 52

Tabel 4.18 Hasil Evaluasi Model pada Data Dengan PCA .............................................. 53

Tabel 4.19 Total Waktu Pengerjaan Data Tanpa PCA ..................................................... 53

Tabel 4.20 Total Waktu Pengerjaan Data dengan PCA ................................................... 38

v

DAFTAR GAMBAR

Gambar 1.1 Grafik Penderita HIV Menurut UNAIDS [18] .................................. 2

Gambar 1.2 Grafik Penderita HIV Menurut Kementrian Kesehatan RI [19] ........ 2

Gambar 2.1 Jaringan Syaraf Biologis Manusia [5] ............................................ 10 Gambar 3.1 Diagram Alur Global Encoding....................................................... 26

Gambar 3.2 Jaringan Arsitektur Extreme Learning Machine.............................. 30

Gambar 3.3 Diagram Alur Extreme Learning Machine ...................................... 34

Gambar 3.4 Diagram Alur Penelitian .................................................................. 36 Gambar 4.1 Scatter Plot ........................................................................................ 39

Gambar 4.2 Scatter Plot ........................................................................................ 40




Gambar 4.6 Heatmap Korelasi ............................................................................. 43




Gambar 4.10 Heatmap Korelasi ........................................................................... 45

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Allah Subhanahu wa Ta’ala telah menurunkan Al-Qur‟an hanya kepada

manusia sebagai pedoman hidup yang berisi kabar gembira dan peringatan-

peringatan. Hal tersebut agar manusia dapat memanfaatkan akal pikirannya

dengan baik. Allah memberikan perumpaan sebagaimana dalam Qur‟an Surat

(Q.S) Al-Hasyr ayat 21:

وتلك المث عا من خشية الله ذا القرآن على جبل لرأيته خاشعا متصد رب لو أنزلنا ه ها للنهاس لعلههم ال ن

﴾١٢﴿ يتفكهرون

Artinya : “Sekiranya Kami turunkan Al-Qur‟an ini kepada sebuah gunung,

pasti kamu akan melihatnya tunduk terpecah belah disebabkan takut kepada

Allah. Dan perumpamaan-perumpamaan itu Kami buat untuk manusia agar

mereka berpikir.”

Ayat tersebut memberikan perumpamaan andai Al-Qur‟an diturunkan pada

gunung-gunung, tentulah gunung-gunung itu akan tunduk kepada Allah

dikarenakan takut kepada-Nya. Sejatinya Allah menginginkan agar manusia

menggunakan akal dan pikirannya untuk berpikir. Begitu banyak ciptaan Allah di

bumi ini agar membuat manusia menjadikan akal, pikiran, dan perasaannya

dengan baik. Salah satu ciptaan Allah yang luar biasa adalah sebuah virus. Virus

adalah suatu benda mati yang dikenal sebagai penyebab berbagai penyakit. Virus

disebut benda mati karena virus tidak dapat melakukan metabolisme sendiri

sehingga virus bergantung pada inang yang ditempatinya [1]. Virus tidak

berkembang biak, melainkan ia melakukan replikasi dengan bantuan sel inang

yang ditumpanginya. Salah satu virus yang mematikan adalah virus Human

Immunodeficiency Virus (HIV) yang menyebabkan penyakit Acquired

Immunodeficiency Syndrome (AIDS) pada manusia. Virus tersebut dikatakan

2

mematikan karena virus tersebut langsung menginfeksi sel yang berperan penting

dalam sistem kekebalan tubuh manusia.

Gambar 1.1 merupakan grafik penderita HIV dari seluruh dunia pada tahun

2016 menurut Joint United Nations Programme on HIV and AIDS (UNAIDS),

jumlah penderita HIV dari tahun 2010 sampai tahun 2015 selalu mengalami

peningkatan. Berdasarkan Gambar 1.2 menurut Kementrian Kesehatan Republik

Indonesia pada tahun 2018, jumlah penderita HIV di Indonesia dari tahun 2007

sampai tahun 2018 selalu mengalami peningkatan. Menurut Minda Azhar,

seseorang yang terkena virus HIV umumnya terinfeksi oleh jenis virus HIV tipe 1

(HIV-1) dari pada jenis virus HIV Tipe 2 (HIV-2) [1].

Gambar 1.1 Grafik Penderita HIV Menurut UNAIDS [18]

Gambar 1.2 Grafik Penderita HIV Menurut Kementrian

Kesehatan RI [19]

3

Virus HIV-1 menginfeksi manusia dengan cara melakukan interaksi antar

protein virus dengan manusia sebagai inangnya [1]. Permukaan virus HIV-1 yang

mengandung protein glikoprotein (gp120) akan mengikat protein pada reseptor

CD4 (Cluster of Differentiation) sehingga virus menyatu dengan membran sel

CD4. Kemudian dengan bantuan enzim reverse transcriptase virus mensintesa

ssRNA menjadi DNA di dalam inti sel Limfosit-T yang nantinya sebagai cikal

bakal virus baru. Virus HIV menyerang sel yang berperan penting dalam sistem

kekebalan tubuh manusia yang memiliki reseptor CD4, dimana umumnya sel

yang merepresentasikan CD4 adalah sel Limfosi-T, sehingga terjadi perakitan

virus baru di dalamnya. Seteleh itu, virus baru terbentuk dan lepas dari sel

Limfosit-T. Kemudian terjadi pematangan virus yang kemudian siap untuk

menginfeksi sel Limfosit-T lainnya.

Metode pengembangan pengobatan penderita HIV terus dilakukan seperti

Reverse Transcriptase Inhibitor, Protease Inhibitor, Fusion Inhibitor, dan

Antiretroviral Therapy. Semua metode pengobatan tersebut memiliki prinsip yaitu

dengan cara menginhibisi enzime reverse transcriptase untuk mencegah sintesis

DNA HIV-1 dari genom RNA dan mekanisme pengakhiran rantai. Semua

pengobatan tersebut dilakukan untuk menghentikan interaksi protein virus HIV-1

ke dalam sel Limfosit-T sebelum virus HIV-1 itu berinteraksi dengan protein sel

Limfosit-T. Oleh karena itu, pada penelitian ini akan dilakukan penelitian

mengenai interaksi protein antara HIV-1 dan manusia.

Penelitian untuk memprediksi interaksi protein telah banyak dilakukan.

Berawal dari metode eksperimental seperti Yeast Two Hybrid (Y2H), Tandem

Affinity Purification (TAP), dan Mass Spectrometric Protein Complex

Identification (MS-PCI). Akan tetapi, metode ini mempunyai kekurangan yaitu

memakan waktu dan biaya cukup banyak [2]. Kemudian muncullah sebuah

metode komputasi untuk menangani masalah tersebut. Metode komputasi

umumnya dilakukan dengan beberapa pendekatan berdasarkan jenis data seperti

informasi genomik, domain protein, struktur protein, atau barisan asam amino

protein [2]. Di antara pendekatan tersebut, data barisan asam amino meningkat

4

secara eksponensial [1]. Oleh karena itu, pada penelitian ini digunakan data

barisan asam amino dari protein HIV-1 dan protein manusia untuk memprediksi

interaksi antar protein HIV-1 dan manusia.

Metode komputasi untuk memprediksi interaksi protein berdasarkan data

barisan asam amino terdapat dua tahapan utama, yaitu metode ekstraksi fitur dan

model klasifikasi [2]. Pada tahap pertama, dilakukan ekstraksi fitur yang bertujuan

mengubah data barisan asam amino menjadi vektor fitur untuk model klasifikasi.

Pemilihan metode ekstraksi fitur yang tepat sangat penting dilakukan karena dapat

dapat meningkatkan performa model. Salah satu ekstraksi fitur yang baik dalam

merepresentasikan barisan asam amino adalah global encoding [2]. Metode

tersebut telah mampu meningkatkan performa model weighted sparse

representation dengan menghasilkan akurasi tertinggi sebesar , presisi

sebesar , dan sensitivitas sebesar [2].

Tahap kedua ialah melakukan prediksi interaksi protein menggunakan model

pembelajaran mesin. Pembelajaran mesin adalah suatu bidang ilmu atau model

pembelajaran komputer berdasarkan pada data yang ada untuk memperoleh suatu

pengetahuan atau informasi dari data tersebut [3]. Terdapat berbagai model

pembelajaran mesin yang telah dikembangkan seperti metode Artificial Neural

Network (ANN) [4]. ANN menarik digunakan karena metode tersebut

didasarkan pada jaringan syaraf biologis manusia [5]. Telah banyak penelitian

yang mengembangkan ANN, salah satu model dari ANN adalah Extreme

Learning Machine (ELM) yang dikenalkan oleh Huang, Zhu, & Siew (2006).

Pada penelitian tersebut, ELM digunakan pada data penderita diabetes yang

dibandingkan dengan Support Vector Machine (SVM), dan Feedforward Neural

Network (FNN). Dalam penelitian tersebut metode SVM menghasilkan performa

sebesar dalam waktu detik, FNN dalam waktu

detik, dan ELM dalam waktu detik [6]. Terlihat bahwa metode

ELM memiliki performa tertinggi dan waktu yang lebih cepat dibandingkan dua

metode lainnya. Pada tahun 2012, You, Lei, Zhu, Xia, & Wang menggunakan

metode Principle Component Analysis Ensemble-ELM (PCA-EELM) untuk

5

memprediksi interaksi protein pada data Saccharromyces cerevisiae. PCA pada

penelitian tersebut digunakan sebagai ekstraksi fitur dan reduksi dimensi yang

menghasilkan prediksi akurasi sebesar , sensitivitas sebesar dan

presisi sebesar [3].

Penelitian terkait prediksi interaksi protein antara HIV dan manusia

berdasarkan barisan asam amino pernah diteliti oleh Saud, Byungkyu, Xiang,

Huang, dan Han pada tahun 2018 meneliti mengenai prediksi interaksi protein

antara virus HIV dan manusia. Pada penelitian ini, ekstraksi fitur yang digunakan

dengan menggunakan Repeat Pattern dan Komposisi Barisan Asam amino yang

dikombinasikan dengan SVM [7]. Kemudian pada tahun 2017, D. Lestari, M.IS.

Musti, dan A. Bustaman meneliti tentang prediksi interaksi protein HIV-1 dengan

manusia menggunakan global encoding yang dikombinasikan dengan rotation

forest ensemble classifier [8]. A. Bustaman, M.I.S. Musti, Susilo, Shirley, Patuan,

dan Tampubolon pada tahun 2019 performa rotation forest ensemble classifier

yang dikombinasikan dengan global encoding untuk memprediksi interaksi

protein HIV-1 dan manusia berdasarkan barisan asam amino [9].

Global Encoding memiliki kelemahan yaitu pada permasalahan kompleksitas

waktu yang tinggi baik pada ekstraksi fitur maupun pada pembangunan model [8]

[9]. Model extreme learning machine dikarenakan memiliki kompleksitas waktu

yang lebih cepat dan performa lebih tinggi daripada metode SVM dan

backpropagation kemungkinan mampu untuk menangani permasalahan yang ada

pada global encoding. Berdasarkan pemaparan tersebut, disimpulkan bahwa

model ELM merupakan salah satu model yang dapat dipakai untuk digunakan

dalam memprediksi interaksi protein berdasarkan data barisan asam amino. ELM

itu sendiri belum pernah dipakai untuk diterapkan pada permasalahan mengenai

prediksi interaksi protein HIV dan manusia berdasarkan barisan asam amino. Pada

penelitian ini, metode ELM akan diaplikasikan pada data barisan asam amino

protein HIV-1 dan protein manusia dimana ekstraksi fitur yang digunakan adalah

global encoding dengan * +.

6

1.2 Rumusan Masalah

Rumusan masalah yang akan dibahas dalam penelitian ini adalah :

1. Bagaimana karakteristik data yang dihasilkan dari metode esktraksi fitur

global encoding.

2. Bagaimana performa extreme learning machine pada data yang direduksi

dimensinya dan data yang tidak direduksi untuk memprediksi interaksi

protein HIV-1 dan manusia.

1.3 Batasan Masalah

Batasan masalah dari penelitian ini adalah :

1. Data yang digunakan adalah data barisan asam amino interaksi protein

HIV-1 dengan manusia.

2. Metode ekstraksi fitur yang digunakan adalah global encoding dengan

parameter * +.

3. Model prediksi yang digunakan adalah extreme learning machine yang

diperkenalkan oleh Huang, Zhu, & Siew [6].

4. Banyaknya neuron di hidden layer yang dipilih yaitu 10, 20, 30, 40, 50,

60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000.

Serta fungsi aktivasi yang digunakan fungsi aktivasi sine, sigmoid, tangen

hiperbolik, multiquadric, triangular basis, invers triangular basis, hard

limit, soft limit, gaussian, dan invers multiquadric.

5. Penentuan Matriks Moore-Penrose generalize inverse menggunakan

Singular Value Decomposition.

1.4 Tujuan Penelitian

Adapun tujuan dalam penelitian ini adalah :

1. Melihat karakteristik data yang dihasilkan dari metode ekstraksi fitur

global encoding.

2. Mengimplementasikan model extreme learning machine pada data yang

direduksi dimensinya dan data yang tidak direduksi dalam memprediksi

interaksi protein HIV-1 dengan manusia.

7

1.5 Manfaat Penelitian

Peneliti mengharapkan implementasi dari model extreme learning machine

pada kasus ini dapat dijadikan sebagai referensi untuk mengembangkan model

extreme learning machine selanjutnya. Peneliti juga mengharapkan bahwa model

yang dihasilkan dapat memberikan informasi mengenai interaksi protein manusia

dengan HIV-1, sehingga bisa dikembangkan untuk penelitian HIV-1 selanjutnya.

8

BAB II

LANDASAN TEORI

2.1 Interaksi Protein

Protein dilihat dari adalah suatu urutan asam amino yang terbentuk oleh

ikatan peptida antara residu asam amino yang berada dalam suatu rantai protein

[1]. Ikatan peptida yang dimaksud merupakan suatu ikatan kovalen yang

terbentuk antara dua sampai beberapa buah dari asam amino yang ditandai dengan

hilangnya air ketika asam amino ini saling berikatan. Protein dalam

keberlangsungan hidupnya harus melakukan interaksi dengan protein lainnya agar

dapat menjalankan fungsi dengan sebaik mungkin [2]. Interaksi protein adalah

proses bertemunya dua atau lebih molekul protein yang kemudian terjadi reaksi

metabolisme untuk keberlangsungan hidupnya [1].

2.2 Human Immunodeficiency Virus

Human Immunodeficiency Virus (HIV) adalah salah satu virus yang

mematikan bagi manusia karena virus tersebut langsung menyerang sel manusia

yang berperan dalam menjaga sistem kekebalan tubuh. Virus ini merupakan virus

yang menyebabkan penyakit autoimun Acquired Immunodeficiency Syndrome

(AIDS). AIDS merupakan gejala `lanjutan yang lebih serius dari infeksi virus

tersebut. Virus ini dikategorikan Grup VI yang memiliki single-stranded RNA

dan menggunakan enzim riverse transcriptase sebagai bantuan untuk melakukan

replikasi. Virus ini memiliki dua macam jenis virus, yaitu virus HIV-1 dan HIV-2.

Menurut Minda Azhar, virus HIV-1 lebih umum menginfeksi manusia daripada

HIV-2 [1].

Dalam siklus hidupnya, mula-mula protein permukaan virus tersebut yang

mengandung glikoprotein160 (gp160) dan glikoprotein120 (gp120) berikatan

dengan reseptor Cluster of Differentiation (CD4) pada sel helper T lymphocytes

yang berperan sebagai sistem kekebalan tubuh manusia. Kemudian lapisan lipid

virus menyatu dengan membran sel dimana nantinya inti virus akan memasuki sel.

Dengan bantuan enzim reverse transcriptase, terjadi proses sintesa single

9

stranded Ribonucleic Acid (ssRNA) virus menjadi Deoxyribonucleic Acid (DNA)

di dalam sel. Kemudian dengan bantuan enzim polimerase DNA tersebut diubah

untuk menghasilkan RNA dan messenger-RNA (mRNA). RNA dan mRNA yang

terbentuk keluar dari inti sel dan ditranslasi di luar inti sel yang kemudian terjadi

perakitan virus baru. Virus baru yang terbentuk lepas dari sel dan terjadi

pematangan virus. Kemudian virus tersebut siap untuk menginfeksi sel helper T

lymphocytes lainnya.

Sedikitnya terdapat 9 genom yang bertanggung jawab dalam kelangsungan

hidup virus HIV-1 yaitu env, gag, pol, rev, tat, vif, vpr, vpu, dan nef [6]. Semua

genom tersebut berperan dalam proses interaksi antara protein virus dan protein

manusia. Interaksi antara protein HIV-1 dengan protein manusia memiliki 43

kategori tipe interaksi. Namun pada penelitian ini perbedaan tipe interaksi tidak

diperhatikan sehingga hanya dipilih dua kategori interaksi yaitu protein yang

saling berinteraksi dan yang tidak berinteraksi.

2.3 Artificial Neural Network

Artificial Neural Network (ANN) merupakan salah satu dari metode

pembelajaran mesin. Metode pembelajaran mesin adalah sebuah metode yang

digunakan untuk memperoleh informasi dengan cara membangun model

berdasarkan data [3]. ANN merupakan sebuah metode yang unik dan menarik

dikarenakan metode tersebut memiliki prinsip kerja seperti jaringan syaraf

biologis pada manusia [5]. Neuron dalam jaringan syaraf biologis diartikan

sebagai sebuah saklar yang menyimpan informasi berupa masukan dan keluaran

[5]. Neuron yang satu dengan neuron yang lain terhubung oleh koneksi khusus

yang disebut synapsis. Dendrites seperti cabang batang pohon berfungsi

menerima sinyal listrik yang diperoleh dari berbagai sumber. Kemudian sinyal

dari dendrites akan ditransfer ke nucleus atau inti sel. Di nucleus dan cell body

sinyal-sinyal yang masuk diakumulasikan dan dilakukan pembangkitan sinyal

keluar pada axon. Axon bertugas menyampaikan informasi ke dendrites jenis sel

syaraf lain.

10

Penerapan pada jaringan syaraf biologis ke ANN, terdiri dari tiga layer yaitu

input layer, hidden layer, dan output layer. Input layer berisikan data berbentuk

matriks yang ingin dilatih menggunakan model ANN. Hidden layer berisikan

hasil dari fungsi linear dan fungsi aktivasi. Ouput layer berisikan sebuah keluaran

dari proses pengaliran sinyal dari input layer menuju hidden layer hingga tiba

pada oiutput layer. Setiap layer berisikan neuron-neuron yang saling terhubung

dengan layer lainnya. Neuron yang satu dengan neuron yang lain terhubung

mengalirkan sinyal, yang mana setiap setiap penghubung memiliki bobot yang

bersesuaian. Setiap neuron menerima input berupa bobot, dan menghasilkan

output dari fungsi penjumlahan bobot dan fungsi aktivasi. Kemudian bobot

tersebut akan dialirkan menuju neuron di layer berikutnya. Proses mengalirkan

sinyal dari input layer sampai output layer disebut dengan feedforward neural

network.

Artifical neural Network (ANN) atau Jaringan Syaraf Tiruan pertama kali

diperkenalkan oleh Warren McCulloch dan Walter Pitts pada tahun 1943 [10].

Mereka memperkenalkan sebuah kombinasi beberapa proses sederhana yang

kemudian diformulasikan menjadi model matematis sel otak. Kemudian pada

tahun 1950, Rosenblatt menemukan perceptron. Perceptron adalah suatu jaringan

terdiri atas dua layer berhubungan yang memungkinkan pengklasifikasian pola

tertentu dengan penambahan bobot pada setiap aliran sinyal jaringan. Jaringan

pada perceptron memiliki sebuah input layer dan output layer. Fungsi aktivasi

yang digunakan pada perceptron ialah fungsi aktivasi biner atau bipolar [3]. Akan

Gambar 2.1 Jaringan Syaraf Biologis Manusia [5]

11

tetapi, konsep Perceptron memiliki kelemahan yaitu ketidak mampuannya dalam

menyelesaikan pola data tidak linear [11]. Hal tersebut membuat Minsky dan

Papert pada tahun 1969 memperkenalkan Multilayer Perceptron untuk menangani

masalah tersebut. Multilayer Perceptron adalah ANN yang setidaknya memiliki

tiga layer berhubungan yaitu satu input layer, satu hidden layer, dan sebuah

output layer. Dengan adanya hidden layer, fitur yang tersembunyi dapat

direpresentasikan melalui bobot keluaran dari hidden layer yang akan dijadikan

keputusan model setelah melalui output layer. Di hidden layer ini juga dapat

menggunakan sembarang fungsi kontinu dari bobot input layer sehingga dapat

memisahkan data dengan pola tidak linear [11].

2.4 Fungsi Aktivasi

Fungsi aktivasi adalah suatu fungsi yang digunakan untuk menghasilkan

keluaran dari suatu neuron berdasarkan masukan dan proses yang dilakukan [10].

Fungsi itu sendiri memiliki arti bahwa untuk setiap elemen di daerah asal

dipetakan ke tepat satu pada daerah hasil. Digunakannnya fungsi ini bertujuan

untuk membuat keputusan apakah neuron tersebut harus aktif atau tidak.

Misalkan adalah suatu variabel masukan pada fungsi aktivasi yang mana

anggota dari bilangan real. Dibawah ini beberapa fungsi aktivasi yang sering

digunakan [12] :

Tabel 2.1 Fungsi Aktivasi

Nomor Fungsi Aktivasi Persamaan Fungsi Aktivasi Daerah Hasil

1 Sine ( ) ( ) , -

2 Sigmoid ( )

( )

3 Tangent

Hiperbolik ( )

( )

4 Multiquadric ( ) √ ( ) , ( )

Gambar 2.1 Ilustrasi neuron secara biologi [1]

12

5 Inverse

Multiquadric ( )

√ ( ) ,

( )

6 Triangular Basis ( ) { | | | |

, )

7 Invers Triangular

Basis ( ) {

| | | |

, )

8 Hard Limit ( ) 2

atau

9 Soft Limit ( ) 2

atau

10 Gaussian ( ) ( -

2.5 Feedforward Neural Network

Feedforward Neural Network (FNN) diperkenalkan pertama kali oleh

Rosenblatt pada tahun 1962 [10]. Ia memperkenalkan FNN bersamaan dengan

perceptron yang hanya memiliki 2 layer, yaitu input layer dan output layer.

Namun, FNN pada saat ini berupa perceptron layer jamak (Multi-layer

perceptron) yang terdiri dari setidaknya tiga layer yaitu satu input layer, satu

hidden layer, dan satu output layer [11]. Saat ini, hidden layer bisa diperbanyak

menjadi lebih dari satu lapisan. Prinsip dari FNN yaitu sinyal pada input layer

dialirkan dengan arah maju menuju hidden layer sampai pada output layer.

Setiap layer di jaringan mempunyai fungsi khusus masing-masing. Input

layer berfungsi menerima sinyal atau data masukan berupa matriks. Hidden layer

berfungsi untuk mendeteksi fitur tersembunyi yang biasanya digunakan sebuah

fungsi untuk menonlinearkan model. Keluaran dari hidden layer digunakan oleh

output layer sebagai keluaran akhir.

13

2.6 Vektor

Vektor dapat diartikan sebagai satu atau lebih bilangan yang berpasangan dan

dapat dinyatakan pada suatu sistem koordinat [13]. Vektor memiliki beberapa

operasi perhitungan yang salah satunya adalah hasil kali dalam. Misalkan

( ) dan ( ) adalah dua vektor tak nol. Hasil kali

titik dan sebagai berikut :

(2.1)

2.7 Matriks

Matriks adalah sekumpulan informasi yang umumnya berupa data numerik

tersusun oleh baris dan kolom yang dibatasi oleh kurung sehingga membentuk

sebuah jajaran persegi panjang [13]. Matriks memiliki beberapa perhitungan yang

disebut operasi pada matriks. Contoh dari operasi matriks yaitu matriks tranpose

dan matriks invers. Misalkan adalah sebuah matriks yang memiliki orde .

Matriks tranpose dari dapat dinotasikan sebagai , didefiniskan sebagai

menukar antara baris matriks menjadi kolom dan kolom matriks A menjadi

baris matriks [13]. Untuk mencari sebuah invers dari suatu matriks dapat

dibedakan menjadi dua kondisi yaitu matriks singular dan non singular. Matriks

singular adalah suatu matriks yang tidak memiliki balikan atau determinan dari

matriks tersebut sama dengan nol [13]. Adapun matriks non singular ialah suatu

matriks yang memiliki balikan (inverse) atau nilai determinanya tidak sama

dengan nol [13].

a. Matriks Transpos

Menurut Howard Anthon dan Chris Rorres (2004), jika A adalah matriks

, maka tranpose dari A, dinyatakan sebagai , didefinisikan sebagai

matriks yang didapatkan dengan mempertukarkan baris-baris dan kolom-

kolom dari A; sehingga kolom pertama dari adalah baris pertama dari ,

kolom kedua dari adalah baris kedua dari A, dan seterusnya [13]. Adapun

sifat sifat tranpose matriks sebagai berikut :

1. ( ) (2.2)

14

2. ( ) (2.3)

3. ( ) (2.4)

b. Invers Matriks

Menurut Howard Anthon dan Chris Rorres (2004), jika A adalah matriks

bujursangkar, dan jika terdapat matriks B yang ukurannya sama sedemikian rupa

sehingga , maka A disebut dapat dibalik (invertible) dan B disebut

sebagai invers (inverse) dari A. Jika matriks B tidak dapat didefinisikan, maka A

dinyatakan sebagai matriks singular [13].

Sewaktu-waktu, dapat ditemui terdapat matriks yang bukan bujursangkar.

Kondisi ini apabila matriks A merupakan matriks non singular, sehingga dapat

dihitung dengan menggunakan matriks Moore-Penrose generalized Inverse [6].

2.8 Nilai Eigen dan Vektor Eigen

Misalkan A sebuah matriks , maka vektor eigen dari A merupakan

sebuah vektor tak nol jika Ax adalah sebuah kelipatan skalar dari, atau dapat kita

tulis:

(2.5)

Untuk skalar sembarang . Skalar disebut nilai eigen dari A, dan x disebut

vektor eigen dari A yang terkait dengan [13]. Nilai eigen dapat dicari

menggunakan persamaan karakteristik berikut :

( ) (2.6)

Dimana I merupakan suatu matriks identitas dari A. Kemudian untuk mencari

vektor eigen dari A dapat menggunakan persamaan berikut

( ) (2.7)

2.9 Singular Value Decomposition

Singular Value Decomposition (SVD) pertama kali diperkenalkan oleh

Beltrami dan Jordan pada tahun 1870 untuk mendekomposisi matriks persegi [6].

Saat ini, SVD dapat digunakan untuk mendekomposisi matriks yang bukan

15

persegi. Misalkan A sebuah matriks yang memiliki ordo , SVD matriks A

dinyatakan sebagai berikut :

(2.8)

Dimana U berordo sebuah matriks ortonormal yang dibentuk dari

vektor eigen dari . Matriks V berordo sebuah matriks ortonormal yang

dibentuk dari nilei eigen vektor dari . Kemudian ialah sebuah matriks

diagonal dari vektor yang merupakan akar kuadrat positif dari nilai eigen U.

itu sendiri disebut sebagai nilai singular dari matriks A.

Matriks A yang memiliki ordo dapat kita tentukan invers matriks

tersebut dengan menggunakan SVD. Perhatikan bahwa matriks U dan V

merupakan matriks ortogonal, yang artinya bahwa dan

, sehingga dan [13]. Perhatikan pula bahwa

( ), sehingga (

). Maka invers matriks

A dapat kita tulis sebagai berikut :

(2.9)

Berikut merupakan ilustrasi dalam mencari invers matriks menggunakan SVD.

Misalkan 0

1

0

1 0

1 0

1 (2.10)

Berdasarkan persamaan (2.6) nilai eigen dari matriks B adalah:

( ) (2.11)

.0

1 0

1 0

1/ (2.12)

.0

1 0

1/ (2.13)

0

1 (2.14)

16

(( )( )) , diperoleh nilai dan

Nilai singular A adalah √ √ , sehingga diperoleh :

[

] [√

√ ] (2.15)

Menentukan matriks U yang terlebih dahulu menentukan nilai eigen vektor

berdasarkan persamaan (2.7), sehingga diperoleh :

( )( ) (2.16)

0

1 0 1 (2.17)

Perhatikan bahwa , kemudian substitusikan nilai pada persamaan

(2.17), sehingga diperoleh :

0

1 0 1 (2.18)

dan , atau dapat ditulis . Karena tidak

terdapat keterangan mengenai , maka dapat dinyatakan sebagai suatu

parameter, misalkan . Oleh karena itu, diperoleh :

0 1 0

1 (2.19)

Kemudian untuk disubstitusikan persamaan (2.17) diperoleh :

0

1 0 1 (2.20)

dan , atau dapat ditulis . Karena tidak


parameter, misalkan . Oleh karena itu, diperoleh vektor eigen , sebagai

berikut :

0 1 0

1 (2.21)

Selanjutnya, dengan menormalisasikan dan :

17

‖ ‖

√( ) ( ) 0

1 dan

‖ ‖

√( ) ( ) 0

1,

dengan menggabungkan dan diperoleh :

0

1 (2.22)

Tahap selanjutnya menentukan matriks V. Sama seperti mencari matriks U,

perbedannya hanya matriks V merupakan matriks ortonormal dari

0

1 0

1 0

1. Melalui tahapan yang sama seperti mencari

matriks U diperoleh :

( ) (2.23)

.0

1 0

1 0

1/ (2.24)

.0

1 0

1/ (2.25)

0

1 (2.26)

(( )( ) ) (2.27)

(2.28)

( )( ) (2.29)

dan

Menentukan matriks V yang terlebih dahulu menentukan nilai eigen vektor

berdasarkan persamaan (2.7), sehingga diperoleh :

( )( ) (2.30)

0

1 0 1 (2.31)

Perhatikan bahwa , kemudian substitusikan nilai pada persamaan di

atas, sehingga diperoleh :

18

0

1 0 1 (2.32)

dan dengan mencari solusi dari persamaan

tersebut diperoleh , atau dapat ditulis . Karena tidak terdapat

keterangan mengenai , maka dapat dinyatakan sebagai suatu parameter,

misalkan . Oleh karena itu, diperoleh :

0 1 0

1 (2.33)

Kemudian untuk disubstitusikan persamaan di atas diperoleh :

0

1 0 1 (2.34)

dan , dengan mencari solusi dari persamaan

tersebut diperoleh , atau dapat ditulis . Karena tidak


parameter, misalkan . Oleh karena itu, diperoleh :

0 1 0

1 (2.35)

Selanjutnya, dengan menormalisasikan dan :

‖ ‖

√( ) ( )

√ [

√

√

] dan

‖ ‖

√( ) ( )

√ [

√

√

]

Dengan menggabungkan dan diperoleh sebuah matriks

[

√

√

√

√

] (2.36)

Apabila matriks U, dan V sudah dihitung secara keseluruhan. Langkah terakhir

ialah mencari matriks menggunakan persamaan (2.9). berdasarkan persamaan

(2.9) diperoleh :

19

[

√

√

√

√

] [

√

√

] 0

1 (2.37)

[

√

√

√

√

] [

] (2.38)

2.10 Matriks Moore-Penrose Generalized Inverse

Misalkan yang berisi output masing-masing neuron hidden layer.

Misalkan juga merupakan bobot antara hidden layer dan output layer, dan

vektor target dari output layer. Misalkan solusi dari sistem linear ,

dimana suatu matriks singular. Untuk menemukan solusi dari sistem linear

tersebut dapat menggunakan matriks Moore-Penrose generalized inverse [6].

Kita tidak bisa menentukan invers dari matriks tersebut dikarenakan matriks

yang dihasilkan bukan matriks persegi. Oleh karena itu, diperlukan invers semu

dari matriks yang disebut matriks Moore-Penrose generalized inverse.

Misalkan matriks H memiliki orde . Menurut Rao dan Mitra (1971),

matriks adalah matriks Moore-Penrose generalized inverse dari matriks H

apabila memenuhi empat syarat berikut :

( ) ( ) (2.39)

Matriks Moore-Penrose generalized inverse ini dapat kita tentukan melalui

beberapa metode seperti Ordinary Least Square (OLS) dan SVD [6]. Metode OLS

dapat digunakan ketika non singular, tetapi tidak selalu non singular,

sehingga metode OLS memiliki kinerja kurang baik di beberapa aplikasi. Adapun

metode SVD secara umum dapat digunakan untuk mencari matriks Moore-

Penrose generalized inverse di semua kasus [14].

2.11 Principal Component Analysis (PCA)

Principal Component Analysis (PCA) pertama kali diperkenalkan oleh Karl

Pearson pada tahun 1901. Prinsip dari metode ini yaitu dengan cara mereduksi

variabel-variabel bebas yang memiliki nilai korelasi yang tinggi dengan cara

20

mempertahankan nilai variansi maksimum dari data sebenarnya ke dalam peubah-

peubah bebas baru yang saling ortogonal dan tidak berkorelasi [3]. peubah-peubah

bebas baru ini disebut principle component yang dapat ditulis sebagai :

[

] [

] [

]

adalah principle component yang merupakan peubah bebas baru

hasil kombinasi linear dari peubah bebas asal , dan

merupakan matriks ciri dari vektor . Metode PCA itu sendiri dalam penentuan

vektor bergantung pada nilai eigen dan vektor eigen. Salah satu metode untuk

menangani permasalahan pada PCA yaitu menggunakan Singular Value

Decomposition.

2.12 Hold-Out

Metode holdout adalah suatu metode untuk membagi data sebanyak dua

bagian yang saling bebas yaitu data training dan data testing [4]. Umumnya, dua

pertiga dari seluruh data dialokasikan sebagai data training, dan sepertiga sisanya

dialokasikan sebagai data testing. Data training digunaan untuk proses dalam

pembentukan sebuah model. Adapaun data testing digunakan untuk melihat

keakuratan model. Pada penelitian ini, dataset yang disiapkan akan dibagi menjadi

data training, dan data testing.

2.13 Grid Search Cross Validation

Kinerja model pada pembelajaran mesin dipengaruhi oleh beberapa

hyperparameter yang diberikan [3]. Hyperparameter adalah parameter yang

ditentukan tanpa proses uji, atau dengan kata lain merupakan parameter yang

tidak ditentukan oleh mesin . Hyperparameter yang diperoleh haruslah merupakan

parameter terbaik yang nantinya akan dimasukkan pada model. Grid Search Cross

Validation (Grid Search CV) adalah salah satu proses untuk melakukan pemilihan

hyperparameter terbaik atau optimal untuk model yang diberikan [15]. Grid

21

Search CV ini melakukan kombinasi antara hyperparameter yang diberikan,

kemudian menghitung rata-rata nilai dari cross validation (CV) dalam

mengevaluasi performa Grid Search. Sebagai contoh, misalkan hyperparameter A

= , - dan B = , - maka Grid Search melakukan kombinasi dari A dan B yaitu

, - , - , - , -. Apabila Grid Search sudah melakukan kombinasi

hyperparameter pada model yang diberikan, kemudian akan memilih kombinasi

terbaik berdasarkan nilai dari rata-rata akurasi tertinggi dari setiap kombinasinya.

2.14 Evaluasi Performa Model

Evaluasi performa model adalah suatu proses untuk menilai seberapa baik

kinerja model yang diperoleh dan diterapkan untuk prediksi pada data baru [16].

Secara umum, dalam mengevaluasi performa model klasifikasi dilakukan dengan

bantuan confusion matrix. Confusion matrix adalah sebuah tabel yang berisikan

banyaknya data yang diprediksi dengan benar atau salah berdasarkan model yang

telah diperoleh. Tabel 2.2 merupakan confusion matrix yang berisikan seberapa

banyak data yang diprediksi dengan benar atau salah. TP (True Positive)

menyatakan jumlah data berinteraksi diprediksi dengan benar. FP (False Positive)

menyatakan jumlah observasi negatif (tidak berinteraksi) yang tidak diprediksi

dengan benar. FN (False Negative) menyatakan jumlah observasi positif (data

berinteraksi) yang tidak diprediksi dengan benar. TN (True Negative) menyatakan

banyaknya observasi negatif (jumlah data tidak berinteraksi) yang diprediksi

dengan benar.

Tabel 2.2 Confusion Matrix

Kelas Sebenarnya Kelas Prediksi

Tidak Berinteraksi Berinteraksi

Tidak Berinteraksi TN FP

Berinteraksi FN TP

22

Kriteria dalam evaluasi performa model klasifikasi yaitu akurasi,

sensitivitas, spesifisitas, presisi, dan F1-score. Berdasarkan tabel 2.1 kriteria

evaluasi performa model diformulasikan sebagai berikut [4]:

Akurasi

(2.40)

Sensitivitas

(2.41)

Spesifisitas

( )

Presisi

(2.43)

F1-Score ( )

( ) (2.44)

Akurasi menggambarkan ukuran sejauh mana prediksi model sesuai dengan

data sebenarnya. Sensitivitas atau Recall adalah proporsi positif yang

diidentifikasi dengan benar [4]. Proporsi positif yang dimaksud pada penelitian ini

yaitu pasangan interaksi antara protein HIV dan manusia. Spesifisitas

mengambarkan ukuran proporsi negatif yang diidentifikasi dengan benar [4].

Proporsi negatif pada penelitian ini yaitu pasangan protein HIV dan manusia yang

tidak saling berinteraksi. Presisi sebagai ukuran yang menunjukkan seberapa

dekat selisih dari hasil dengan nilai sesungguhnya pada saat dilakukan

pengulangan [4]. F-Measure atau F1-Score merupakan kombinasi antara recall

dan presisi.

21

BAB III

METODOLOGI PENELITIAN

3.1 Data Penelitian

Data yang digunakan dalam penelitian ini merupakan data sekunder bulan

Mei 2018 yang diperoleh dari GenBank National Center for Biotechnology

Information (NCBI) yang diakses pada situs https://www.ncbi.nlm.nih.gov/ [17].

Data tersebut berupa barisan asam amino protein HIV-1 dan data barisan asam

amino protein manusia. Terdapat 18.069 pasang data barisan asam amino protein

HIV-1 dengan beberapa tipe interaksi protein. Penelitian ini tidak memperhatikan

tipe interaksi protein yang ada pada data. Hal ini karena penelitian ini berfokus

pada masalah klasifikasi biner, yaitu mengklasifikasi protein HIV yang

berinteraksi dengan protein manusia ataupun yang tidak berinteraksi.

Dalam penelitian ini, data yang diperoleh dibagi menjadi tiga dataset

meliputi dataset berinteraksi, dataset tidak berinteraksi, dan dataset prediksi.

Dataset berinteraksi merupakan data barisan asam amino HIV-1 yang diperoleh

dari database. Dataset tidak berinteraksi diperoleh dengan menyeleksi data barisan

asam amino protein manusia yang tidak terdapat pada dataset berinteraksi.

Sebanyak data barisan asam amino protein manusia diperoleh masih

pada situs yang sama https://www.ncbi.nlm.nih.gov/ (Genome Guide Human).

Dataset berinteraksi dan tidak berinteraksi kemudian dilakukan seleksi untuk

mendapatkan golden dataset. Golden dataset diperoleh dengan cara menghapus

pasangan barisan asam amino yang mempunyai kemiripan , dan

menghapus barisan asam amino yang mempunyai panjang kurang dari residu.

Setelah memperoleh dataset berinteraksi dan tidak berinteraksi, lalu

mempersiapkan dataset prediksi. Dataset prediksi diperoleh dengan cara

menyeleksi secara acak pada dataset yang tidak terdapat pada dataset berinteraksi

dan tidak berinteraksi.

https://www.ncbi.nlm.nih.gov/

https://www.ncbi.nlm.nih.gov/

22

3.2 Global Encoding

Global encoding digunakan sebagai metode untuk mengekstraksi fitur barisan

asam amino menjadi vektor fitur berisikan barisan numerik yang dinormalisasi

untuk digunakan pada tahap selanjutnya [2]. Pemilihan ekstraksi fitur yang efektif

sangat penting untuk meningkatkan kinerja model menjadi semakin baik. Dalam

proses ekstraksi fitur ini, global encoding mendeskripsikan secara global urutan

barisan asam amino dengan memperhatikan sifat fisiokimia dari setiap protein

[2]. Sifat fisiokimia protein ditunjukkan Tabel 3.1

Tabel 3.1 Sifat Fisiokimia Protein

Klasifikasi Asam amino Simbol dan Residu

Asam amino alipatik C1 = {A, V, L, I, M, C}

Asam amino aromatik C2 = {F, W, Y, H}

Polar asam amino C3 = {S, T, N, Q}

Positif asam amino C4 = {K, R}

Negatif asam amino C5 = {D, E}

Bentuk spesial C6 = {G, P}

Metode ekstraksi fitur global encoding mula-mula mengelompokkan setiap

barisan asam amino berdasarkan 6 sifat fisiokimia residu asam amino pada Tabel

3.1. Kemudian dari hasil pengelompokkan tersebut akan dibagi 3 kelas berbeda ke

dalam 2 sub himpunan, sehingga diperoleh 10 kelompok barisan asam amino.

Dari 10 kelompok barisan asam amino tersebut ditransformasikan menjadi 10

barisan karakteristik. Tahap selanjutnya yaitu mempartisi 10 barisan karakteristik

yang diperoleh menjadi sub barisan karakteristik. Tahap akhir dari ekstraksi

fitur ini yaitu mengekstraksi fitur vektor dengan menghitung vektor dekomposisi

dan transisi. Langkah-langkah dalam menggunakan ekstraksi fitur global

encoding sebagai berikut.

23

Langkah 1. Transformasi Barisan Asam Amino Protein

Setiap barisan asam amino dikelompokkan sesuai dengan sifat fisiokimia pada

Tabel 3.1 beradasarkan enam kelas residu dari masing-masing protein. Kemudian

dari enam kelas yang diperoleh akan dibagi ke dalam dua sub himpunan yang

berisi tiga kelas berbeda, sehingga diperoleh sepuluh pengelompokan sebagai

berikut :

1. {C1, C2, C3} vs {C4, C5, C6}

2. {C1, C2, C4} vs {C3, C5, C6}

3. {C1, C2, C5} vs {C3, C4, C6}

4. {C1, C2, C4} vs {C3, C5, C6}

5. {C1, C3, C4} vs {C2, C5, C6}

6. {C1, C3, C5} vs {C2, C4, C6}

7. {C1, C3, C6} vs {C2, C4, C5}

8. {C1, C4, C5} vs {C2, C3, C6}

9. {C1, C4, C6} vs {C2, C3, C5}

10. {C1, C5, C6} vs {C2, C3, C4}

Langkah selanjutnya adalah mentransformasikan sepuluh kelompok barisan

yang sudah diperoleh sebelumnya menjadi sepuluh barisan karakteristik ( )

. Misalkan barisan asam amino, dan

residu asam amino ke . Sebagai ilustrasi akan ditentukan dua barisan

karakteristik dari sepuluh barisan karakteristik sebagai berikut :

( ) { * + * +

( )

( ) { * + * +

( )

Langkah 2. Mempartisi Barisan Karakteristik

24

Barisan karakteristik ( ) yang diperoleh akan dibagi menjadi sebanyak

subbarisan karakteristik, dengan anggota bilangan bulat positif. Partisi barisan

karakteristik ke dari dinotasikan Sub . Sub terdiri dari ⌊ ⌋

pertama dari .

Langkah 3. Mengekstraksi Vektor Fitur

Pada tahap ini, subbarisan karakteristik yang diperoleh sebelumnya

digambarkan sebagai vektor masukan berdasarkan deskriptor komposisi dan

deskriptor transisi. Deskriptor komposisi sebagai deskriptor pertama

mendeskripsikan banyaknya „0‟ dan „1‟ di setiap subbarisan karakteristik,

sedangkan deksriptor transisi sebagai deskriptor kedua mendeskripsikan

penjumlahan dari banyaknya perpindahan dari „0‟ menjadi „1‟ ataupun sebaliknya

[6].

Apabila 3 langkah metode global encoding telah dilakukan, maka terjadi

perubahan data dari bentuk tekstual menjadi numerik. Setiap barisan asam amino

diubah menjadi 10 barisan karakteristik, merupakan banyaknya partisi dari

barisan karakteristik, dan 3 merupakan hasil vektor fitr dari deskriptor komposisi

dan transisi sehingga masing-masing vektor fitur dari metode ekstraksi global

encoding sebanyak .

Untuk lebih jelasnya berikut diberikan iustrasi sederhana dalam melakukan

ekstraksi fitur menggunakan global encoding. Misalkan barisan asam amino

MPQTVSCNRCWCASRGLSKLFEDCT akan diekstraksi fitur menggunakan

metode global encoding.

a. Transformasi Barisan Asam Amino Protein

1. {C1, C2, C3} vs {C4, C5, C6} = 1011111101111100110110011

2. {C1, C2, C4} vs {C3, C5, C6} = 1000101011111010101110010

3. {C1, C2, C5} vs {C3, C4, C6} = 1000101001111000100111110

4. {C1, C2, C6} vs {C3, C4, C5} = 1100101001111001100110010

25

5. {C1, C3, C4} vs {C2, C5, C6} = 1011111111011110111100011

6. {C1, C3, C5} vs {C2, C4, C6} = 1011111101011100110101111

7. {C1, C3, C6} vs {C2, C4, C5} = 1111111101011101110100011

8. {C1, C4, C5} vs {C2, C3, C6} = 1000101011011010101101110

9. {C1, C4, C6} vs {C2, C3, C5} = 1100101011011011101100010

10. {C1, C5, C6} vs {C2, C3, C4} = 1100101001011001100101110

b. Mempartisi Subbarisan Karakteristik

Misalkan yang dipartisi adalah 2 barisan karakteristik pertama. Misalkan .

Sehingga diperoleh 5 subbarisan karakteristik dari setiap barisan karakteristik

pertama dan kedua.

Lima subbarisan karakteristik dari barisan karakteristik pertama :

Sub =

Sub =

Sub =

Sub =

Sub =

Lima subbarisan karakteristik dari barisan karakteristik kedua :

Sub =

Sub =

Sub =

Sub =

Sub =

c. Mengekstraksi Vektor Fitur

26

Pada tahap ini dihitung deskriptor komposisi dan deskriptor transisi. Misalkan

yang akan diekstraksi adalah subbarisan karakteristik diperoleh :

Deskriptor komposisi

dan

Deskriptor Transisi

Sehingga fitur vektor dari subbarisan adalah , -

Berikut diagram alur global encoding

Mulai

Data barisan asam

amino

Golden Dataset

Transformasi menjadi 10

barisan karakteristik

Sub barisan karakteristik

* +

Mengekstraksi Vektor

Fitur

Dataset Hasil Global

Encoding

Selesai

Membentuk 10 kelompok

yang terbagi menjadi 3

kelas berbeda berisi 2 sub

himpunan

Gambar 3.1 Diagram Alur Global Encoding

27

3.3 Extreme Learning Machine

Extreme Learning Machine (ELM) pertama kali diperkenalkan oleh Huang,

Zhu, dan Siew pada tahun 2006 sebagai algoritma untuk Single Hidden Layer

Feedforward Neural Network [6]. FNN dalam melakukan proses pembelajaran

menggunakan sebuah algoritma Backpropagatiopn (BP) untuk mencari solusi dari

menyelesaikan SLFN secara iterasi berdasarkan persamaan berikut :

( )

(3.3)

Dimana merupakan bobot baru dan bobot awal yang akan

dioptimalkan. ( )

merupakan turunan dari error terhadap variabel W.

Perhatikan bahwa sebuah learning rate. Beberapa kelemahan dari algoritma BP

diantaranya [6] :

1. Ketika learning rate awal terlalu kecil, konvergen algoritma pembelajaran

menjadi sangat lambat. Sebaliknya, apabila learning rate awal terlalu besar,

algoritma menjadi tidak stabil bahkan menjadi menyimpang (divergen).

2. Pada saat proses pembelajaran, error surface algoritma BP hanya mencapai

nilai minimum lokal. Sesuatu yang tidak diinginkan bahwa algoritma BP

hanya berhenti sampai minimum lokal bukan pada minimum global.

3. Membutuhkan kompleksitas waktu yang tinggi

Extreme Learning Machine diperkenalkan untuk menangani permasalahan

pada FNN tersebut. Menurut Huang, Zhu, dan Shiew pada tahun 2006, model ini

memiliki kelebihan yaitu menghasilkan performa yang lebih tinggi dan waktu

pembelajaran yang lebih cepat daripada SVM dan FNN seperti backpropagation.

Hal tersebut dikarenakan dalam proses pelatihan, bobot akhir ditentukan

berdasarkan matriks Moore-Penrose generalized inverse. Tak seperti metode

backpropagation, penentuan bobot dan bias yang optimal akan diuji secara

iteratif. Namun menurut Huang, Song, dan You pada tahun 2014, metode ini juga

memiliki kelemahan ketika menentukan banyaknya neuron di hidden layer yang

tidak sesuai mengakibatkan model mengalami overfitting [12].

28

Extreme Learning Machine merupakan salah satu model dari jaringan syaraf

tiruan feedforward yang memiliki satu hidden layer dan merupakan model dari

pembelajaran terawasi [12]. Itulah sebabnya ELM disebut juga single hidden

layer feedforward neural netwoks. Prinsip kerja ELM yaitu semua parameter pada

jaringan tidak seluruhnya diuji secara iteratif, melainkan mempelajari bobot antara

hidden layer dan output layer [6]. Dengan digunakannya fungsi aktivasi dan

matriks Moore-Penrose generalized inverse, ELM dapat menghasilkan parameter

bobot dari hidden layer ke output layer yang optimal.

Misalkan himpunan data dengan banyaknya observasi dan peubah

bebas. Misalkan , - vektor target. Parameter yang dicari pada

metode ini adalah bobot dan bias optimal yang mengalirkan sinyal dari setiap

neuron di semua layer. Tahap awal dari metode ini adalah menginisialisasikan

sembarang bobot pada input layer ke- menuju hidden layer ke- . Pada saat di

hidden layer terjadi perhitungan fungsi aktivasi yang digunakan untuk

menonlinearkan model. Kemudian bobot dari hidden layer menuju output layer

dihitung menggunakan matriks Moore-Penrose generalized inverse. Secara

sederhana, ELM dilakukan melalui tiga tahap sebagai berikut :

1. Inisialisai secara acak vektor bobot dan bias , dimana

2. Menghitung keluaran hidden layer berupa matriks .

Setiap neuron pada input layer menerima sinyal kemudian mengalirkan sinyal

tersebut pada setiap neuron di hidden layer sampai output layer. adalah

fungsi output untuk menyebarkan sinyal dari input layer ke hidden layer.

( )

merupakan hasil kali titik antara matriks dan vektor bobot .

= bobot bias dari input layer ke hidden layer

= data dari input layer

= bobot dari input layer ke menuju hidden layer ke

29

Kemudian diaktifkan dengan fungsi aktivasi sigmoid biner untuk

menentukan matriks yang berisi output masing masing neuron hidden

layer.

( )

( )

Adapun matriks dapat dihitung sebagai berikut :

[

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

](3.6)

3. Menghitung keluaran bobot .

Kemudian dihitung matriks Moore-Penrose generalized inverse dari .

Matriks yang memiliki ordo digunakan untuk menentukan nilai

yang merupakan bobot dari hidden layer ke output layer. Nilai dapat

ditentukan dengan mengalikan matriks dan vektor target . Dapat ditulis

sebagai berikut :

( )

Setelah itu, menyebarkan sinyal kembali ke output layer dengan fungsi output

.

( ) ( )

dengan :

= fungsi output untuk output layer

= bobot antara hidden layer ke dengan output layer

( ) = fungsi aktivasi

Kemudian diaktifkan dengan fungsi aktivasi sigmoid biner dari untuk

memperoleh nilai output .

30

Berikut merupakan jaringan dari extreme learning machine :

Gambar 3.2 Jaringan Arsitektur Extreme Learning Machine

Tahap-tahap ELM akan mudah dipahami pada ilustrasi data sederhana berikut :

Tabel 3.2 Data Ilustrasi Extreme Learning Machine

Variabel Prediktor

Variabel Target

0 1 1

1 0 0

1 1 1

1

31

Langkah 1 :

Membuat jaringan feedforward dengan unit input yaitu dan , terdapat 1

lapisan tersembunyi yang memiliki 2 neuron dan unit output.

Langkah 2 :

Inisialisasikan semua bobot dan bias dari input layer ke hidden layer dengan

bilangan acak kecil. Misalkan bilangan acak kecil yang diperoleh sebagai berikut :

Tabel 3.3 Bobot Awal dari Data Ilustrasi

Langkah 3 :

Menghitung Output unit hidden berdasarkan persamaan ( )

Untuk

(3.9)

= [

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

]

= [

] (3.10)

32

Untuk

(3.11)

= [

( ) ( )( ) ( ) ( ) ( )( ) ( ) ( ) ( )( ) ( )

]

= [

] (3.12)

Diperoleh matriks Z = [

] (3.13)

Langkah 4 : Diaktifkan menggunakan fungsi aktivasi. Pada ilustrasi ini digunakan

fungsi aktivasi sigmoid biner berdasarkan Tabel 2.1 nomor 2.

[

]

[

] (3.14)

Langkah 5 :Menentukan dekomposisi matriks menggunakan Singular

Value Decomposition berdasarkan persamaan (2.8) diperoleh

[

] (3.15)

[

] (3.16)

[

] (3.17)

33

Langkah 6 : Menghitung persamaan Moore-Penrose generalized inverse untuk

mencari bobot optimal menggunakan persamaan ( ).

= [

] (3.18)

Langkah 7 : Menghitung matriks (bobot antara hidden layer dan output layer)

berdasarkan persamaan ( ). Melalui langkah ini juga, vektor target

ditransformasi dimana label tidak berinteraksi 0 akan berubah menjadi -1,

sedangkan label berinteraksi tetap menjadi 1.

[

] [ ]

= 0

1 (3.19)

Langkah 8 : Menghitung nilai output berdasarkan persamaan ( )

[

] 0

1

[

] (3.20)

Langkah 9 : Mengklasifikasikan setiap kelas dengan mencari selisih terkecil

matriks dengan target

Tabel 3.4 Hasil Klasifikasi dari Data Ilustrasi

Selisih Kelas Awal Kelas

Akhir 1 -1

1,216358074 0,216358074 2,216358 1

-0,25453404 1,25453404 0,745466 -1

0,079788652 0,92021135 1,079789 1

34

Berikut diagram alur dari metode ELM

Gambar 3.3 Diagram Alur Extreme Learning Machine

3.4 Alur Penelitian

Alur penelitian dari penelitian sebagai berikut :

Langkah 1. Mempersiapkan data

1. Mengunduh dataset interaksi protein HIV dengan manusia beserta BAA

https://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses/hiv-

1/interactions/browse/. Dataset interaksi protein HIV dari web tersebut

sebanyak 18.069 data. Dataset ini diseleksi dengan hanya mengambil

Mulai

Membagi Data

Training dan Testing

Inisialisasi bobot

dan bias awal

Proses feedforward

Menentukan bobot

akhir menggunakan

Matriks Moore-

Penrose generalized

Inverse

Menghitung

keluaran dari hidden

layer

Data Training

sebanyak 70%

Data Testing

sebanyak 30%

Memperoleh hasil

bobot optimal

Hasil Prediksi Data

Testing

Selesai

https://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses/hiv-1/interactions/browse/

https://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses/hiv-1/interactions/browse/

35

sebuah pasangan protein tanpa memperhatikan perbedaan tipe interaksi dan

menjadikannya sebagai dataset berinteraksi. Dataset berinteraksi diperoleh

sebanyak 6.046 pasang data.

2. Mengunduh dataset protein manusia beserta asam aminonya dari situs

https://www.ncbi.nlm.nih.gov/genome/guide/human/. Dataset ini diseleksi

dengan memilih protein manusia yang tidak terdapat pada dataset

berinteraksi secara acak dan menjadikannya sebagai dataset tidak

berinteraksi. Dataset tidak berinteraksi diperoleh sebanyak 6.046 pasang

data.

3. Memberikan kelas atau target pada setiap pasangan protein yang

berinteraksi diberi angka 1, sedangkan yang tidak berinteraksi diberi angka

0.

4. Memperoleh golden dataset dengan kriteria; menghapus pasangan barisan

asam amino yang mempunyai kemiripan , dan menghapus barisan

asam amino yang mempunyai panjang kurang dari residu. Dari golden

dataset diperoleh sebanyak 12093 pasang data.

5. Melakukan ekstraksi fitur golden dataset menggunakan global encoding

dengan

Langkah 2. Melakukan visualisasi data. Visualisasi data yang dipilih untuk

melihat karakteristik data hasil global encoding.

Langkah 3. Melakukan prediksi interaksi protein menggunakan model extreme

learning machine.

1. Menentukan banyaknya neuron pada hidden layer.

2. Inisialisasi bobot dan bias awal.

3. Melakukan proses feedforward dari input layer menuju hidden layer.

Kemudia menghitung keluaran dari hidden layer.

4. Menentukan bobot berdasarkan matix moore-penrose generalized inverse.

Kemudian menghitung keluaran dari output layer.

Langkah 4. Menghitung hasil performa model dan merepresentasikannya

dalam bentuk diagram garis.

https://www.ncbi.nlm.nih.gov/genome/guide/human/

36

Langkah 5. Memilih model terbaik dari metode extreme learning machine

dengan melihat performa terbaik berdasarkan confusion matrix

Langkah 6. Menarik kesimpulan

Berikut alur penelitan dari skripsi ini yang direpresentasikan berupa diagram.

Mulai

Golden Dataset

Ekstraksi fitur global

encoding

Selesai

Dataset hasil global

encoding

Membaca karakteristik

data hasil global

encoding

Membangun model

menggunakan Extreme

learning machine

Hasil prediksi

Evaluasi performa

model

Gambar 3.4 Diagram Alur Penelitian

37

BAB IV

HASIL DAN PEMBAHASAN

4.1 Karakteristik Data Hasil Global Encoding

Ekstraksi fitur Global Encoding (GE) pada penelitian ini, memilih parameter

* +. Oleh karena itu, data hasil ekstraksi fitur ini terbagi sebanyak

enam bagian. Karakteristik GE yang dipilih yaitu statistika deskriptif dari data

seperti rata-rata, standar deviasi, Q1, Q2, Q3, nilai minimum dan maksimum.

Sebaran data akan dilihat melalui scatter plot dari data yang ditransformasikan

menjadi dua fitur. Tidak hanya itu, korelasi antar variabel bebas juga akan dilihat

melalui heatmap korelasi. Seluruh hasil karakteristik data hasil GE akan dilihat

pada setiap parameter . Berikut statistika deskriptif dari masing-masing

parameter GE * + :

Tabel 4.1 Statistika Deskriptif Parameter

Statistika

Desktiptif X1 X2 X3 ... X120

Jumlah

Data 15976 15976 15976 ... 15976

Rata-

rata 0,646546 0,353454 65, 366049 ... 281, 30677

Standar

Deviasi 0,069729 0,069729 63, 923518 ... 277, 15809

Min 0,5 0,191489 12 ... 11

Q1 0,601942 0,280374 22 ... 122

Q2 0,651163 0,348837 46 ... 209

Q3 0,719626 0,398058 97 ... 342

Max 0,808511 0,5 334 ... 4454

38


Statistika

Deskriptif X1 X2 X3 ... X180

Jumlah

Data 15976 15976 15976 ... 15976

Rata-

rata 0,626789 0,373211 44,86167 ... 281,30677

Standar

Deviasi 0,100278 0,100278 41,963057 ... 277,15810

Min 0,470588 0,074074 4 ... 11

Q1 0,535714 0,291925 15 ... 122

Q2 0,63253 0,36747 30 ... 209

Q3 0,708075 0,464286 70 ... 342

Max 0,925926 0,529412 210 ... 4454


Statistika


Jumlah

Data 15976 15976 15976 ... 15976

Rata-

rata 0,601934 0,398066 35, 766524 ... 281

Standar

Deviasi 0,128824 0,128824 32, 068181 ... 277

Min 0,384615 0,1 3 ... 11

Q1 0,5 0,266667 12 ... 122

Q2 0,588235 0,411765 24 ... 209

Q3 0,733333 0,5 52 ... 342

Max 0,9 0,615385 158 ... 4454


Statistika


Jumlah

Data 15976 15976 15976 ... 15976

Rata-

rata 0,586922 0,413078 28, 092643 ... 281, 25803

39

Standar

Deviasi 0,138639 0,138639 25, 432316 ... 277, 08837

Min 0,411765 0,125 3 ... 11

Q1 0,473684 0,282609 10 ... 122

Q2 0,59 0,41 18 ... 209

Q3 0,717391 0,526316 41 ... 342

Max 0,875 0,588235 126 ... 4454


Statistika


Jumlah

Data 15976 15976 15976 ... 15976

Rata-

rata 0.582169 0.417831 23, 399223 ... 281

Standar

Deviasi 0.156417 0.156417 21, 079077 ... 277

Min 0.357143 0.153846 2 ... 11

Q1 0.437500 0.262500 9 ... 122

Q2 0.578313 0.421687 14 ... 209

Q3 0.737500 0.562500 34 ... 342

Max 0.846154 0.642857 102 ... 4454

Gambar 4.1 Scatter Plot

Gambar 4.1 merupakan scatter plot dari parameter GE . Parameter ini

mempunyai dimensi data , sehingga memiliki dimensi yang cukup

40

tinggi. Oleh karena itu, fitur pada parameter ini dilakukan transformasi

hanya menjadi dua fitur. Berdasarkan gambar 4.1 tersebut dapat dilihat bahwa

pada sebaran data parameter GE ini memiliki pola yang linear baik pada

data yang berinteraksi maupun tidak berinteraksi. Akan tetapi kedua data yang

berinteraksi dan tidak berinteraksi saling bertumpuk di beberapa titik. Tidak

hanya itu, dari gambar tersebut dapat dilihat bahwa terdapat beberapa data yang

letaknya jauh dari kumpulan data yang ada. Hal ini mengindikasikan bahwa pada

data ini beberapa data pencilan (outlier).



41

Karakteristik GE dan memiliki dimensi 15976 dan

. Sama halnya seperti , dimensi fitur ini akan direduksi

sehingga menjadi hanya dua fitur. Berdasarkan Gambar 4.1 dan Gambar 4.3

tersebut, dapat dilihat bahwa pola dari data dan tidak berbeda

signifikan dengan parameter GE , sehingga dapat disimpulkan bahwa data

ini memiliki pola linear yang saling bertumpuk dibeberapa titik dan data ini

memiliki pencilan.

Berdasarkan Gambar 4.4 dan 4.5, berturut-turut dapat dilihat bahwa

karakteristik GE , dan memiliki kesimpulan yang sama dengan



42

, dan . Berdasarkan hasil scatter plot dari seluruh parameter GE

* + dapat disimpulkan bahwa sebaran data hasil ekstraksi fitur ini

memiliki pola data yang linear dan data yang berinteraksi maupun tidak

berinteraksi terlihat saling bertumpuk di beberapa titik, serta mengindikasikan

adanya pencilan (outlier).

Tabel 4.6 Nilai Korelasi Hasil Global Encoding

Parameter Variabel Nilai

Korelasi Parameter Variabel

Nilai

Korelasi

X32 X31 -1

X80 X79 -1

X8 X7 -1 X106 X107 -1

X1 X2 -1 X115 X116 -1

X26 X25 -1 X52 X53 -1

X29 X28 -1 X122 X121 -1

... ...

X24 X21 0,999 X147 X150 0,999

X51 X54 0,999 X135 X132 0,999

X18 X15 0,999 X57 X60 0,999

X24 X60 0,999 X60 X150 0,999

X1 X15 1 X1 X1 1

X1 X2 -1

X98 X97 -1

X5 X4 -1 X158 X157 -1

X13 X14 -1 X91 X92 -1

X38 X37 -1 X5 X4 -1

X44 X43 -1 X32 X31 -1

... ...

X72 X33 0,999 X180 X177 0,999

X78 X81 0,999 X54 X51 0,999

43

X24 X27 0,999

X69 X66 0,999

X90 X36 0,999 X180 X72 0,999

X1 X1 1 X1 X1 1

L4

X64 X65 -1

X104 X103 -1

X62 X61 -1

X16 X17 -1

X56 X55 -1

...

X48 X45 0,999

X105 X108 0,999

X30 X33 0,999

X120 X48 0,999

X1 X1 1

Tabel 4.6 merupakan tabel nilai korelasi lima terendah dan tertinggi antar

variabel bebas dari setiap parameter GE dengan * +. Terlihat bahwa

data hasil ekstraksi fitur global encoding memiliki nilai korelasi yang tinggi yang

mendekati 1 dan -1. Hal ini menandakan bahwa hasil ekstraksi fitur GE memiliki

hubungan linear yang kuat pada setiap dua variabel bebas yang saling berkorelasi.

Selain itu, nilai korelasi dari setiap variabel bebas akan disajikan dalam bentuk

Heatmap. Berikut Heatmap korelasi dari setiap parameter global encoding .

Gambar 4.6 Heatmap Korelasi

44



45



Berdasarkan keenam gambar heatmap korelasi yaitu Gambar 4.6, 4.7, 4.8,

4.9, dan 4.10 dapat dilihat bahwa nilai korelasi negatif ditunjukkan dengan warna

biru muda hingga biru tua. Semakin nilai korelasi antar variabel bebasnya

memiliki nilai korelasi negatif yang mendekati , maka warna matriks yang

ditunjukkan semakin berwarna biru tua. Begitu pula untuk nilai korelasi positif,

semakin warna merah yang ditunjukkan merupakan warna merah muda, maka

nilai korelasi positif memiliki nilai yang mendekati 1. Hal ini dapat dilihat,

bahwasanya banyak terdapat dua variabel bebas yang menunjukkan nilai korelasi

yang mendekati 1 dan -1, sehingga variabel-variabel ini akan dilakukan reduksi

dimensi menggukanakan Principle Component Analysis (PCA).

46

4.2 Data Hasil PCA

Reduksi dimensi dengan menggunakan PCA ini akan direduksi dimensinya

menjadi dua, tiga, empat, dan seterusnya sampai dua puluh fitur. Kemudian hasil

setiap PCA akan dilihat nilai Explained Variance Ratio (EVR), yang selanjutnya

akan dilihat apakah PCA yang ditransformasi sudah mewakili data asli

sebenarnya.

Tabel 4.7 Nilai Explained Variance Ratio

PCA EVR PCA EVR PCA EVR

1 0,787 8 0,0004 14 0,00009

2 0,208 9 0,0003 15 0,00008

3 0,002 10 0,0004 16 0,00006

4 0,0009 11 0,0002 17 0,00005

5 0,0005 12 0,0001 18 0,00004

6 0,0001 13 0,00009 19 0,00005

7 0,0003

Tabel 4.7 merupakan tabel hasil reduksi dimensi pada data GE

menggunakan PCA. Berdasarkan tabel 4.7 dapat dilihat bahwa untuk PCA=2 saja

nilai kumulatif dari EVR yaitu , yang artinya sudah mewakili data

sebenarnya sebanyak . Oleh karena itu, transformasi untuk parameter GE

3, , , dan hanya direduksi dimensinya menjadi dua fitur saja

dengan menggunakan PCA. Berikut data hasil yang sudah direduksi dimensinya

menjadi dua fitur :

Tabel 4.8 Data Hasil PCA

PC1 PC2 PC1 PC2

2 -806,427067 -287,962139 5 -1076,064919 -381,668357

-722,778915 -282,204325

-959,127649 -373,633744

-126,777098 -417,602006

-162,174466 -560,103714

47

-147,973756 -419,091779

-195,666514 -562,45768

3 -902,065773 -323,166474 6 -1154,095408 -410,334119

-809,262885 -316,71919

-1028,895949 -401,667742

-139,661316 -470,077026

-172,173057 -601,381283

-164,829418 -471,877868

-211,596731 -604,164369

4 -992,454271 -355,716959

-886,869615 -348,415124

-833,832524 -344,752417

-702,154814 -335,68499

Data hasil PCA ini kemudian akan dilihat karakteristik datanya dengan

melihat statistika deskriptif, sebaran data, dan nilai korelasinya. Berikut statistika

deskriptif dari parameter GE yang sudah direduksi dimensinya menjadi dua fitur

menggunakan PCA.

Tabel 4.9 Statistika Deskriptif PCA dari

Statistika Deskriptif PC1 PC2

Jumlah Data 15976 15976

Rata-rata 3,94179E-14 4,66172E-13

Standar Deviasi 945,1605969 485,610642

Minimum -932,1732931 -482,6787497

Q1 -546,9332387 -350,1948178

Q2 -242,1269966 -185,2123774

Q3 218,6694434 258,4693001

Maksimum 14465,5035 2345,283488




Rata-rata 6,71305E-13 1,90146E-13

48

Standar Deviasi 1054,561439 543,9227704

Minimum -1041,232061 -538,94702

Q1 -610,1884574 -391,8137696

Q2 -269,1556528 -210,7854075

Q3 244,1790609 294,2203503

Maksimum 16171,30418 2626,093667




Rata-rata 1,70866E-13 -1,79312E-13

Standar Deviasi 1157,748517 596,8618221

Minimum -1142,233755 -590,4778738

Q1 -669,6565813 -430,3246446

Q2 -296,5307124 -227,3107546

Q3 267,8479693 319,1314832

Maksimum 17758,51542 2878,261777

Tabel 4.12 Statistika Deskriptif



Rata-rata -3,99386E-13 5,32733E-13

Standar Deviasi 1253,981305 646,6493596

Minimum -1236,955906 -639,1185413

Q1 -724,8136063 -465,7316017

Q2 -321,335096 -247,6431227

Q3 289,6365096 343,5471712

Maksimum 19257,50209 3113,899595

49

Tabel 4.13 Statistika Deskriptif



Rata-rata -2,17459E-13 8,10752E-13

Standar Deviasi 1344,226249 693,5823997

Minimum -1325,965609 -687,1711113

Q1 -776,8357482 -499,6602032

Q2 -344,4186292 -268,435085

Q3 310,7097174 374,3004401

Maksimum 20630,7332 3343,07353

Berikut nilai hasil korelasi dari setiap variabel bebas yang sudah diekstraksi

fiturnya menjadi dua fitur :

Tabel 4.14 Nilai Korelasi Antar Variabel PC

Parameter

GE Variabel

Variabel

PC1 PC2

PC1 1000000 1,60065E-10

PC2 1,60065E-10 1000000

L3 PC1 PC2

PC1 1000000 -3,4123E-11

PC2 -3,4123E-11 1000000

L4 PC1 PC2

PC1 1000000 -2,9263E-10

PC2 -2,9263E-10 1000000

L5 PC1 PC2

PC1 1,00E+06 -7,94E-11

PC2 -7,94E-11 1,00E+06

L6 PC1 PC2

PC1 1,00E+06 -1,92E-10

PC2 -1,92E-10 1,00E+06

50

Berdasarkan tabel 4.14 dapat dilihat bahwasanya nilai korelasi antar variabel

memiliki nilai yang mendekati 0. Hal ini dapat disimpulkan bahwa data hasil PCA

dari data hasil ekstraksi fitur GE sudah tidak memiliki nilai korelasi tinggi antar

dua variabel bebasnya.

4.3 Hasil Grid Search CV

Model yang digunakan pada penelitian ini adalah Extreme Learning Machine

(ELM). Dalam pembentukan model, dipilih beberapa fungsi aktivasi dan

banyaknya neuron dari hidden layer. Pada penelitian ini, fungsi aktivasi yang

dipilih yaitu fungsi aktivasi sigmoid, tangen hiperbolik (tanh), multiquadric,

triangular basis (tribas), inverse triangular basis (inverse tribas), hard limit

(hardlim), soft limit (softlim), gaussian, dan inverse multiquadric. Kemudian

untuk banyaknya neuron hidden layer yang dipilih yaitu 10, 20, 30, 40, 50, 60, 70,

80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, dan 1000.

Dataset masukan pada model ini merupakan dataset hasil global encoding.

Kemudian dataset tersebut dibagi menjadi data training dan data testing. Data

training dan data testing diperoleh dengan menggunakan metode Hold-Out yang

terbagi menjadi dua bagian, yaitu sebanyak 70% data training dan 30% data

testing.

Hyperparameter model ELM terbaik akan dipilih untuk digunakan pada data

testing. Hyperparameter terbaik dipilih berdasarkan akurasi terbesar dengan

menggunakan algoritma Grid Search CV. Algoritma Grid Search CV digunakan

pada saat pemilihan fungsi aktivasi dan hidden neuron terbaik pada saat proses

training berdasarkan nilai akurasi terbesar dengan menggunakan 10-fold Cross

Validation. Berikut merupakan tabel hasil nilai rata-rata akurasi terbaik yang

diperoleh pada algoritma Grid Search CV pada data tanpa menggunakan PCA

Tabel 4. 15 Hasil Grid Search CV pada Data Tanpa PCA

GE Parameter Terbaik

L Dimensi Neuron Fungsi Aktivasi Rata-rata Akurasi

2 900 Multiquadric 0,695

51





Berdasarkan tabel 4.7 terlihat bahwa berdasarkan data train, fungsi aktivasi

terbaik adalah fungsi aktivasi multiquadric, sedangkan neuron hidden terbaik

sebanyak 600, 900, dan 1000 neuron. Adapun nilai akurasi data train di semua

parameter tidak berbeda secara signifikan. Nilai akurasi data train hanya

berkisar kurang lebih 0,69.

Berikut hasil Grid Search CV pada data yang sudah direduksi dimensinya

menggunakan PCA.

Tabel 4. 16 Hasil Grid Search CV pada Data PCA

GE Parameter Terbaik

L Dimensi Neuron Fungsi Aktivasi Rata-rata

Akurasi






Tabel 4.16 merupakan tabel hasil hasil Grid Search CV pada data yang

sudah direduksi dimensi menjadi dua fitur menggunakan PCA. Dengan perlakuan

yang sama dengan data yang tidak dilakukan reduksi menggunakan PCA

kemudian dilakukan pada data yang menggunakan PCA, bahwa fungsi aktivasi

terbaik masih tetap fungsi multiquadric. Akan tetapi, banyaknya neuron pada

hidden layer terbaik pada saat sebanyak 200 neuron.

52

4.4 Hasil Evaluasi Model

Tabel 4.17 Hasil Evaluasi Model Data Tanpa PCA

GE Akurasi Recall Spesifisitas Presisi F1 Score L Dimensi

2 0,695 0,743 0,647 0,684 0,712

3 0,684 0,719 0,646 0,677 0,697

4 0,689 0,724 0,652 0,682 0,702

5 0,694 0,739 0,649 0,685 0,711

6 0,690 0,722 0,657 0,684 0,703

Tabel 4.17 merupakan hasil evaluasi model data testing. Dari tabel di atas,

terlihat bahwa pada saat , nilai akurasi model 69,5%, recall 74,3%,

spesifisitas 64,7%, presisi 68,4%, dan f1 score sebesar 71,2%. Pada saat ,

nilai akurasi model sebesar 68,4%, recall 71,9%, spesifisitas 64,4%, presisi

67,7%, dan f1 score sebesar 69,7%. Kemudian pada saat parameter global

encoding , nilai akurasi model sebesar 68,9%, recall sebesar 72,4%,

spesifisitas 65,2%, presisi 68,2%, dan f1 score sebesar 70,2%. Pada saat

parameter global encoding , nilai akurasi model sebesar 69,4%, recall

73,9%, spesifisitas 64,9%, presisi 68,5%, sedangkan f1 score sebesar 71,1%.

Adapun pada saat parameter global encoding , nilai akurasi model sebesar

69,0%, recall sebesar 72,2%, spesifisitas 65,7%, presisi sebesar 68,4%, dan f1

score sebesar 70,3%.

Berdasarkan tabel di atas, terlihat bahwa nilai akurasi model tertinggi sebesar

69,5% pada saat , atau dengan kata lain, terjadi ketika dimensi datanya

. Adapun nilai akurasi terkecil sebesar 68,4% diperoleh pada saat

, atau dengan kata lain, terjadi ketika dimensi datanya .

Setelah mengevaluasi model pada data awal yang belum direduksi dmensinya

oleh PCA, selanjutnya dibandingkan dengan hasil evaluasi model pada data yang

sudah direduksi dimensinya oleh PCA sebagai berikut :

53

Tabel 4.18 Hasil Evaluasi Model pada Data Dengan PCA

GE Akurasi Recall Spesifisitas Presisi F1 Score L Dimensi

2 0,624 0,699 0,548 0,615 0,655

3 0,615 0,697 0,533 0,606 0,648

4 0,626 0,701 0,546 0,614 0,655

5 0,623 0,694 0,552 0,615 0,652

6 0,620 0,697 0,543 0,611 0,651

Perbedaan parameter yang berbeda juga mengakibatkan berbedanya waktu

pengerjaan dalam membangun model. Dapat dilihat pada tabel berikut:

Tabel 4.19 Total Waktu Pengerjaan Data Tanpa PCA

GE Total Waktu Pengerjaan

(Detik) Standar Deviasi Akurasi

L Dimensi

2 12,67459 0,01539693

3 15,48337 0,014772033

4 14,82264 0,016939463

5 14,00443 0,014171977

6 14,99727 0,01395548

38

Tabel 4.20 Total Waktu Pengerjaan Data dengan PCA

GE Total Waktu Pengerjaan

(Detik)

Standar Deviasi Akurasi

L Dimensi

2 1,223727 0,012473903

3 0,678983 0,012067289

4 1,591441 0,011730479

5 1,877676 0,010669571

6 0,705712 0,00837228

Berdasarkan kedua tabel dapat disimpulkan bahwa parameter global encoding

yang berbeda tidak mepengaruhi secara signifikan dalam peningkatan kinerja

model. Hal tersebut dapat dilihat bahwa untuk semua parameter yang berbeda

nilai akurasi model hanya berkisar 68%. Hal ini menandakan, bahwa dengan

parameter global encoding yang lebih kecil atau dimensi yang kecil, metode

global encoding sudah mampu merepresentasikan barisan asam amino dengan

cukup baik. Peningkatan parameter perlu diperhatikan, dikarenakan semakin

besar parameter mengakibatkan lamanya waktu pengerjaan dalam membangun

sebuah model seperti terlihat pada tabel 4.19 dan 4.20.

Berdasarkan tabel 4.19 dan 4.20, bahwasanya waktu pengerjaan model data

tanpa PCA lebih lama daripada waktu pengerjaan model pada data dengan PCA.

Kemudian dapat disimpulkan bahwa parameter terbaik dari data tanpa dilakukan

reduksi menggunakan PCA pada saat parameter global encoding dengan

nilai akurasi sebesar , recall sebesar , spesifisitas sebesar ,

presisi sebesar , dan f1-score sebesar . Kemudian untuk hasil

evaluasi model terbaik pada data yang dilakukan reduksi menggunakan PCA

terjadi pada saat dengan nilai akurasi sebesar , recall sebesar ,

spesifisitas sebesar , presisi sebesar , dan f1-score sebesar .

Berdasarkan hasil evaluasi model pada data dengan PCA tidak mengalami

peningkatan performa model dengan data tanpa dilakukan PCA. Model ELM itu

39

sendiri memiliki performa lebih tinggi dan kompleksitas waktu lebih cepat

daripada Support Vector Machine (SVM) dab Backpropagation yang diterapkan

pada data hasil ekstraksi fitur global encoding .

Model Akurasi Total Waktu Pengerjaan

(Detik)

ELM 69,5% 12,67459

SVM 61,2% 56,933

BP 65,2% 13,985

51

BAB V

PENUTUP

5.1 Kesimpulan

Karakteristik data hasil global encoding dapat disimpulkan bahwa data ini

memiliki pola data yang linear, akan tetapi kedua data baik pada protein yang

saling berinteraksi maupun protein yang tidak berinteraksi terlihat saling

menumpuk, sehingga data yang dihasilkan tidak bisa dipisahkan secara linear.

Kemudian karakteristik selanjutnya, data ini memiliki pencilan (outlier), serta

memiliki korelasi yang cukup kuat antar dua variabel bebas yang saling

berkorelasi.

Metode ekstraksi fitur global encoding dengan parameter * + dan

model Extreme Learning Machine (ELM) menghasilkan model terbaik pada saat

dengan nilai akurasi sebesar , recall sebesar , spesifisitas

sebesar , presisi sebesar , dan f1-score sebesar . Nilai akurasi

dari model terbaik ini sebesar . Hal tersebut menandakan bahwa model

tersebut dapat memprediksi interaksi antar protein HIV dengan manusia secara

benar di atas 69,5%. Kriteria hasil evaluasi model lainnya yaitu recall di atas

74,3% menunjukkan bahwa model memiliki kemampuan dalam mengenali

observasi positif dengan nilai ketepatan di atas 74,3%. Kemudian untuk nilai

spesifisitas menghasilkan di atas 64,7%, ini menandakan bahwa model memiliki

kemampuan mengenali observasi negatif dengan nilai ketepatan di atas 64,7%.

Dari semua parameter , nilai presisi menghasilkan di atas 68,4% dan nilai f1

score menghasilkan di atas 71,2%.

Data hasil global encoding ini memiliki nilai korelasi yang cukup kuat,

sehingga dilakukan reduksi dimensi menggunakan PCA. Metode ekstraksi fitur

global encoding dengan parameter * + yang sudah direduksi menjadi

dua fitur dan model Extreme Learning Machine (ELM) menghasilkan model

terbaik pada saat dengan nilai akurasi sebesar , recall sebesar

, spesifisitas sebesar , presisi sebesar , dan f1-score sebesar

. Nilai akurasi dari model terbaik ini sebesar 62,6%. Hal tersebut

52

menandakan bahwa model tersebut dapat memprediksi interaksi antar protein HIV

dengan manusia secara benar di atas 62,6%. Kriteria hasil evaluasi model lainnya

yaitu recall sebesar 70,1% menunjukkan bahwa model memiliki kemampuan

dalam mengenali observasi positif dengan nilai ketepatan di atas 70,1%.

Kemudian untuk nilai spesifisitas menghasilkan di atas 54,6%, ini menandakan

bahwa model memiliki kemampuan mengenali observasi negatif dengan nilai

ketepatan di atas 54,6%. Dari semua parameter , nilai presisi menghasilkan di

atas 61,4% dan nilai f1 score menghasilkan di atas 65,5%. Hasil evaluasi model

dari data PCA dan data yang tidak menggunakan PCA, tidak berbeda signifikan.

Performa model ELM pada data tanpa PCA masih sedikit lebih tinggi daripada

performa model ELM pada data dengan PCA. Oleh karena itu, dapat disimpulkan

bahwa PCA yang dilakukan pada data hasil ekstraksi fitur global encoding untuk

prediksi interaksi HIV-1 dengan manusia tidak bisa meningkatkan performa

model Extreme Learning Machine.

5.2 Saran

Berdasarkan penelitian ini, masih terdapat beberapa hal yang perlu

dikembangkan dari penelitian ini. Saran yang diberikan arena hasil karakteristik

data global encoding memiliki pola yang linear, dan saling menumpuk pada kedua

kelas yang berinteraksi dan tidak berinteraksi, sehingga data tidak bisa dipisahkan

secara linear. Oleh karena itu, peneliti menyarankan untuk menggunakan

pembaruan dari model extreme learning machine dengan menerapkan adanya

fungsi kernel.

51

REFERENSI

[1] Minda Azhar, Biomolekul Sel: Karbohidrat, Protein , dan Enzim. Padang:

UNP Press, 2016.

[2] Z.H. You, X. Chen, K.Chan, X. Luo Y.Huang, "Sequence-based Prediction

of Protein-protein Interactions Using Weighted Sparse Representation Model

Combined With Global Encoding," BMC Bioinformatics, pp. 1-11, 2016.

[3] Cristopher M. Bishop, Pattern Recognition and Machine Learning.:

Springer, 2006.

[4] M. Kamber, J. Pei J. Han, Data Mining Concepts and Techniques , 3rd ed.:

Morgan Kaufmann, 2011.

[5] David Kriesel, A Brief Introduction to Neural Networks. Germany, 2005.

[6] S. Song, K. You G.B. Huang, "Extreme Leaning Machines: Theory and

Applications," Neurocomputing, pp. 489-501, 2006.

[7] Byungkyu Park, Xiang Zhou De-Shuang Huang and Kyungsook Han Saud

Alguwaizani, "Predicting Interactions Between Virus and Host Proteins

Using Repeat Pattern and Composition of Amino Acids," Hindawi, 2018.

[8] M.I.S. Musti, A. Bustaman D. Lestari, "Sequenced-Based Prediction of

Protein-protein Interactions Using Ensemble Based Classifier Combined with

Global Encoding in Human Immunodeficiency Virus," in Proceedings of the

3rd International Syposium on Current Progress in Mathematics and Science

(ISCPMS), 2017.

[9] Mohamad I.S. Musti, Susilo Hartono, Shirley Aprilia, Patuan P.

Tampubolon, Dian Lestari Alhadi Bustaman, "Perfomance of Rotation Forest

Ensemble Classifier and Feature Extraction In Predicting Protein Interactions

Using Amino Acid Sequences," BMC Genomics, 2019.

[10] D. Suhartono W. Budiharto, Artificial Intelligence Konsep dan

Penerapannya. Yogyakarta: ANDI, 2014.

[11] Eko Prasetyo, Data Mining Konsep dan Aplikasi Menggunakan MATLAB.

Yogyakarta: ANDI , 2012.

[12] S.Song, K.You G. Huang, "Trends in Extreme Learning Machines: A

Review," Elsevier, pp. 32-48, 2014.

[13] Chris Rorres Howard Anton, Aljabar Linear Elementer Versi Aplikasi. 2004:

Erlangga.

52

[14] Xizhao W., Guiqiang Z., Xu Z. Shuxia L., "Effective Algorithms Of The

Moore-Penrose Inverse Matrices for Extreme Learning Machine," IOS Press,

pp. 743-760.

[15] A. P. Bennett, G. Wills S. Iwan, "Support Vector Machine Parameter

Optimization Using Grid Search and Genetic Algorithm to Improve

Classification Perfomance," TELKOMNIKA, December 2016.

[16] G.I. Webb G. Sammut, Encyclopedia Of Machine Learning And Data Mining

, 2nd ed.: Springer, 2017.

[17] Brigitte E., Kenneth S., Donna R., Kim D., and Roger G. William F.,

"Humman Immunodeficiency Virus Type 1, Human Protein Interaction

Database at NCBI," Nucleid Acid Research, vol. 37, 2008.

[18] Joint United Nations Programme on HIV and AIDS (UNAIDS). (2020,

Januari) Joint United Nations Programme on HIV and AIDS (UNAIDS).

[Online]. http://www.unaids.org

[19] Departemen Kesehatan RI. (2020, Januari) Departemen Kesehatan RI.

[Online]. http://www.depkes.go.id

http://www.unaids.org/

http://www.depkes.go.id/

51

LAMPIRAN

52

Lampiran I. Code Extreme Learning Machine pada data global encoding

#import modul

import pandas as pd

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

from time import time

from sklearn.decomposition import PCA

from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import cross_val_predict, cross_val_score,

train_test_split

from sklearn.metrics import confusion_matrix, classification_report

from sklearn_extensions.extreme_learning_machines.elm import ELMClassifier

import warnings; warnings.simplefilter('ignore')

#load dataset

dataset = pd.read_excel("4.3.2. GE L2 FINAL.xlsx")

dataset.shape

dataset.head()

a = dataset.describe()

a.to_excel('describe_L2.xlsx')

#memisahkan fitur dan label

label = dataset['Y']

fitur = dataset.drop('Y', axis=1)

X = fitur.values

y = label.values

53

#Melihat nilai korelasi menggunakan heatmap

sns.set(style="white")

corr = fitur.corr()

mask = np.zeros_like(corr, dtype=bool)

mask[np.triu_indices_from(mask)] = True

f, ax = plt.subplots(figsize=(11,9))

cmap = sns.diverging_palette(220,10,as_cmap=False)

sns.heatmap(corr,mask=mask,cmap=cmap,square=True, ax=ax)

ax.set_title('Multi-Collinearity of Features')

plt.show()

#Melihat Sebaran Data

Xax=X_pca[:,0]

Yax=X_pca[:,1]

cdict={0:'red',1:'green'}

labl={0:'Tidak Berinteraksi',1:'Berinteraksi'}

marker={0:'*',1:'o'}

alpha={0:.3, 1:.5}

fig,ax=plt.subplots(figsize=(7,5))

fig.patch.set_facecolor('white')

for l in np.unique(label):

ix=np.where(label==l)

ax.scatter(Xax[ix],Yax[ix],c=cdict[l],s=40,

label=labl[l],marker=marker[l],alpha=alpha[l])

# for loop ends

plt.xlabel("First Principal Component",fontsize=14)

54

plt.ylabel("Second Principal Component",fontsize=14)

plt.legend()

plt.show()

#Memisahkan Data Training 70% dan Testing 30%

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,

random_state=0)

#Mendefinisikan fungsi untuk bangun model

def grid_search_wrapper(param_grid, scoring, X_train, X_test, y_train, y_test,

refit_score='accuracy_score'):

elmc = ELMClassifier(rbf_width=0.0, alpha=1.0, random_state=0)

search = GridSearchCV(elmc, param_grid, cv = 10, scoring=scorers,

refit=refit_score, \

n_jobs=-1, return_train_score=True)

search.fit(X_train, y_train)

hasil_gridsearch = {

'rangkuman':pd.DataFrame(search.cv_results_),

'best_estimator': search.best_estimator_,

'best_score_': search.best_score_,

'best_parameters': search.best_params_}

y_pred = search.predict(X_test)

# confusion matrix on the test data.

conf_mat = pd.DataFrame(confusion_matrix(y_test, y_pred),

columns=['pred_neg', 'pred_pos'], index=['neg', 'pos'])

target_names = ['Berinteraksi', 'Tidak Berinteraksi']

55

class_report_test = classification_report(y_test, y_pred,

target_names=target_names, output_dict=True)

class_report_test = pd.DataFrame(class_report_test).transpose()

hasil_test = {

'confusion_matrix': conf_mat,

'class_report_test':class_report_test}

return {'hasil_gridsearch': hasil_gridsearch , 'hasil_test': hasil_test}

#Train Model

param_grid = {'n_hidden' : [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400,

500, 600, 700, 800, 900, 1000],

'activation_func' : ['sine', 'tanh', 'tribas', 'inv_tribas', 'sigmoid', 'hardlim',

'softlim', 'gaussian', 'multiquadric', 'inv_multiquadric']

}

scorers = {

'precision_score': make_scorer(precision_score),

'recall_score': make_scorer(recall_score),

'spesificity_score': make_scorer(specificity_score),

'accuracy_score': make_scorer(accuracy_score),

'f1_score': make_scorer(f1_score)

}

grid_search_elmc = grid_search_wrapper(param_grid = param_grid, scoring =

scorers, X_train = X_train,

X_test = X_test,

y_train = y_train,

56

y_test = y_test,

refit_score='accuracy_score')

#save hasil grid search di excel file

rangkuman_gridscv =

grid_search_elmc['hasil_gridsearch']['rangkuman'].to_excel('rangkuman_gridscvL

3r.xlsx')

best_estimator_gridscv = grid_search_elmc['hasil_gridsearch']['best_estimator']

best_score_gridscv = grid_search_elmc['hasil_gridsearch']['best_score_'] #rata-

rata nilai akurasi dari 10 fold

best_parameters_gridscv =

grid_search_elmc['hasil_gridsearch']['best_parameters']

print({'best_estimator_gridscv':best_estimator_gridscv,

'best_score_gridscv': best_score_gridscv,

'best_parameters_gridscv': best_parameters_gridscv})

report_hasil_testing =

grid_search_elmc['hasil_test']['class_report_test'].to_excel('report_hasil_testingL3

r.xlsx')

#save model

import pickle

f = open('model_L3r.pckl', 'wb')

pickle.dump(grid_search_elmc,f)

f.close()

implementasi extreme learning machine dalam...

Documents