identifikasi single nucleotide polymorphism (snp) …repository.unugha.ac.id/697/1/17.pdf · 2019....

IDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM

(SNP) PADA GENOM KEDELAI MENGGUNAKAN

ALGORITME C5.0

SITA NABILA KAMELINA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2018

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Identifikasi Single

Nucleotide Polymorphism (SNP) pada Genom Kedelai Menggunakan Algoritme

C5.0 adalah benar karya saya dengan arahan dari komisi pembimbing dan belum

diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber

informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak

diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam

Daftar Pustaka di bagian akhir disertasi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut

Pertanian Bogor.

Bogor, Mei 2018

Sita Nabila Kamelina

NIM G64130096

ABSTRAK

SITA NABILA KAMELINA. Identifikasi Single Nucleotide Polymorphism (SNP)

pada Genom Kedelai Menggunakan Algoritme C5.0. Dibimbing oleh LAILAN

SAHRINA HASIBUAN.

Teknologi sequencing DNA mampu melakukan sequencing secara mudah

dan cepat, sehingga dapat menghasilkan data sequencing dalam ukuran yang sangat

besar. Identifikasi Single Nucleotide Polymorphism (SNP) pada data sequencing

DNA merupakan masalah yang kompleks karena ukuran data yang digunakan

sangat besar dan banyaknya error pada tahap sequecing itu sendiri. Salah satu

dampak error pada proses sequencing DNA adalah banyaknya polimorfisme palsu.

Tujuan penelitian ini yaitu untuk mengidentifikasi SNP menggunakan algoritme

C5.0 dan menganalisis fitur-fitur yang terbaik dalam proses identifikasi SNP. Data

yang digunakan adalah data whole-genome dari kedelai budidaya (Glycine max [L.]

Merr.) yang disekuens dengan teknologi Next-Generation Sequecing (NGS). Tahap

pemodelan dan pengujian menggunakan data latih Gm11 dan data uji Gm16.

Algoritme C5.0 mampu mengklasifikasikan kelas true dengan sensitivity sebesar

0.58 dan precision sebesar 0.67 yang berarti banyak terdapat false positive, dan

kemampuan model klasifikasi SNP dengan benar dengan f-measure sebesar 0.62.

Kata kunci: Algorithm C5.0, Next-Generation sequencing, Single Nucleotide

Polymorphism.

ABSTRACT

SITA NABILA KAMELINA. Identifikasi Single Nucleotide Polymorphism (SNP)

pada Genom Kedelai Menggunakan Algoritme C5.0. Dibimbing oleh LAILAN

SAHRINA HASIBUAN.

DNA sequencing technology is able to sequence DNA easily and quickly, it

affects the producing of DNA data which becomes very large in volume. The

identification of Single Nucleotide Polymorphism (SNP) in DNA sequencing data

is a complex problem because the data volume is very large and it has many errors

due to the previous stage in DNA sequencing. The large number of spurious SNP

is the negative impact of them. The purpose of this study is to identify the SNP

using the C5.0 algorithm and analyze the best features in the SNP identification

process. The data used were whole-genome data from cultivation soybean (Glycine

max [L.] Merr.) which was sequenced by Next-Generation Sequencing Technology

(NGS). Modelling and testing phase using Gm11 and Gm16 for training and testing

respectively. The results show that model is able to classify the positive class with

sensitivity is 0.58, and precision is 0.67. These numbers illustrate that there are

many false positives. The f-measure of the model was also calculated, it is 0.62, it

shows that the model is able to identify positive SNPs and to not classify negative

SNPs as positives SNPs

Keywords: Algorithm C5.0, Next-Generation Sequencing, Single Nucleotide

Polymorphism.

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer

pada

Departemen Ilmu Komputer

KLASIFIKASI SINGLE NUCLEUTIDE POLYMORPHISM

(SNP) PADA GENOM KEDELAI MENGGUNAKAN

ALGORITME C5.0

SITA NABILA KAMELINA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2018

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas

segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang

dipilih dengan judul Klasifikasi Single Nucleutide polymorphism (SNP) pada

Genom Kedelai Menggunakan Algoritme C5.0.

Banyak kendala dan tantangan yang dihadapi penulis dari awal penelitian

dilaksanakan hingga menyelesaikan karya ilmiah untuk gelar Sarjana ini. Doa,

dukungan, pengertian, dan kasih sayang dari Ibu Yayah Yasin, dan keluarga besar

Bojong Kulur menjadi kekuatan utama bagi penulis menyelesaikan penelitian ini.

Terima kasih yang sangat besar juga penulis sampaikan kepada Ibu Lailan Sahrina,

SKom MKom selaku pembimbing, yang senantiasa memberi arahan, saran, dan

motivasi dengan sabar, terarah, tulus, dan ikhlas.

Penulis juga menyampaikan terima kasih kepada:

1 Kedua orang tua tercinta yaitu Bapak H. Syarifudin dan Ibu Hj. Yayah Yasin,

serta Nenek Warsih dan Tante Embon Nurbastia Dewi yang setia memberikan

doa dan dukungan kepada penulis,

2 Bapak Muhammad Ahsyar Agmalaro, SSi MKom dan Bapak Dr Wisnu Ananta

Kusuma, ST MT selaku penguji yang telah memberi masukan dan arahan

perbaikan,

3 Bapak Prof Dr Ir Agus Buono, MSi MKom selaku Ketua Departemen Ilmu

Komputer IPB,

4 Seluruh dosen, staf tata usaha, dan staf pegawai Departemen Ilmu Komputer

IPB,

5 Teman-teman terdekat, yaitu Mia, Namira, Annazah, Nina, Sarah, Nurin, Wasil,

Nurul, Akhiyar

6 Seluruh teman seperjuangan Program S1 Ilmu Komputer IPB angkatan 50 serta,

7 Teman-teman dan sahabat lainnya yang tidak dapat penulis ucapkan satu per

satu.

Semoga segala doa, bantuan, bimbingan, motivasi, dan dukungan yang telah

diberikan kepada penulis senantiasa dibalas oleh Allah subhanahu wa ta’ala.

Semoga karya ilmiah ini memberikan manfaat dan wawasan bagi pembaca.

Bogor, Mei 2018

Sita Nabila Kamelina

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN 1

Latar Belakang 1

Perumusan Masalah 2

Tujuan Penelitian 2

Manfaat Penelitian 2

Ruang Lingkup Penelitian 2

TINJAUAN PUSTAKA 2

Algoritme Decision Tree 2

Algoritme C5.0 3

Single Nucleotida Polymorphism (SNP) 3

Next-Generation Sequence (NGS) 3

METODE 4

Data 4

Tahapan Penelitian 5

Pembagian Data 5

Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0 5

Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0 6

Evaluasi 7

Analisis 7

Peralatan Penelitian 8

HASIL DAN PEMBAHASAN 8

Pembagian Data 8

Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0 8

Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0 9

Evaluasi 10

Analisis 10

SIMPULAN DAN SARAN 12

DAFTAR ISI

Simpulan 12

Saran 12

DAFTAR PUSTAKA 12

DAFTAR TABEL

1 Kandidat SNP 4

2 Confusion matrix 7

3 Model berbasis pohon keputusan dan berbasis aturan 9

4 Confusion matrix model 1 9

5 Confusion matrix model 2 9

6 Hasil pengujian terbaik dua model klasifikasi 10

7 Perbandingan hasil model 10

8 Persentase fitur Gm11 dan Gm18 11

DAFTAR GAMBAR

1 Tahapan Penelitian 5

DAFTAR LAMPIRAN

1 Daftar fitur data penelitian 14

2 Pohon keputusan Gm11 15

3 Aturan Gm11 16

4 Pohon keputusan Gm18 17

5 Aturan Gm18 18

PENDAHULUAN

Latar Belakang

Produktivitas kedelai di Indonesia belum mampu mengimbangi kebutuhan

masyarakat akan kedelai. Oleh sebab itu, penggunaan bibit unggul dalam

penanaman sangat diperlukan guna meningkatkan produktivitas kedelai. Budi daya

kedelai dengan memanfaatkan informasi genetik berpotensi menghasilkan bibit

unggul secara efektif dan efisien dari segi waktu (Mammadov et al. 2012).

Pemanfaatan informasi genetik terus meningkat seiring perkembangan

teknologi sequencing DNA. Next-Geration Sequencing (NGS) merupakan

teknologi sequencing DNA yang mampu menghasilkan throughput yang tinggi

dalam waktu yang singkat dan biaya yang relatif murah. NGS mampu melakukan

sequencing DNA manusia dalam waktu yang hingga 15 tahun untuk menyelesaikan

(Boopathi 2013).

Informasi genetik dari data sequence DNA yang umumnya dimanfaatkan

untuk pengembangan bibit unggul adalah Single Nucleotide Polymorphism (SNP)

(Istiadi 2015). SNP merupakan polimorfisme satu buah nukleotida dari DNA-DNA

yang dijajarkan pada spesies yang sama namun varietas berbeda (Gupta et al. 2001).

Penjajaran fragmen dengan genom referensi merupakan tahap sebelum melakukan

identifikasi SNP. Identifikasi SNP memiliki kesulitan dalam hal mengidentifikasi

polimorfisme yang sebenarnya (true) dan polimorfisme palsu (false).

Penelitian mengenai identifikasi SNP telah dilakukan oleh Hasibuan et al.

(2014) menggunakan metode Support Vector Machine (SVM) dengan data kedelai

budidaya (Glycine max [L.] Merr.). Penelitian tersebut mengevaluasi beberapa

teknik penyeimbangan data dan pengaruhnya pada peforma SVM. Berdasarkan

penelitian tersebut diperoleh nilai akurasi sebesar 0.85 dengan nilai f-measure sebesar

0.57. Penelitian selanjutnya dilakukan oleh Istiadi (2015) menggunakan data

fragmen whole-genome yang dijajarkan dengan genom rujukan jenis William 82

pada kromosom 01 dengan metode genetic programming (GP). Penelitian tersebut

menghasilkan sensitivity dan specificity terbaik yaitu masing-masing sebesar

92.39% dan 86.63%. Namun, precision yang dihasilkan masih sangat rendah yaitu

sebesar 30.14%. Hudachair (2017) menggunakan data whole-genome kedelai

dengan metode bagging clasification and regression tree (bagging CART) yang

memperoleh nilai f-measure sebesar 0.63%.

Penelitian ini menggunakan salah satu dari teknik data mining yaitu algoritme

C5.0. Algoritme C5.0 merupakan penyempurnaan dari algoritme ID3 dan C4.5

yang dibentuk oleh Ross Quinlan pada tahun 1987. Algoritme C5.0 telah dirancang

untuk dapat menganalisis basis data subtansial yang berisi ratusan atau lebih record

yang memiliki variabelnya hingga ratusan field numerik atau nominal. Hasil

klasifikasi algoritme C5.0 disajikan dalam bentuk sekumpulan aturan if-then atau

berbentuk pohon keputusan agar lebih mudah dibaca oleh pengguna (Rulequest

2012). Penelitian ini menggunakan model klasifikasi untuk mengidentifikasi SNP

positif dan SNP negatif dengan algoritme C5.0 terhadap dataset genom kedelai dan

menganalisis fitur terbaik yang berperan pada pembangunan model.

2

Perumusan Masalah

Rumusan masalah penelitian ini yaitu:

1 Bagaimana menerapkan algoritme C5.0 untuk identifikasi SNP pada genom

kedelai?

2 Bagaimana menganalisis fitur-fitur yang berperan dalam proses identifikasi

SNP positif dan SNP negatif pada genom kedelai?

Tujuan Penelitian

Tujuan penelitian ini adalah sebagai berikut:

1 Mengidentifikasi SNP positif dan SNP negatif dengan menerapkan algoritme

C5.0 pada genom kedelai.

2 Menganalisis fitur-fitur yang berperan dalam pengidentifikasian SNP positif

dan SNP negatif pada genom kedelai.

Manfaat Penelitian

Manfaat peneletian ini adalah sebagai berikut:

1 Hasil identifikasi SNP dapat dimanfaatkan untuk analisis asosiasi antara SNP

dan fenotipe pada genom kedelai.

2 Memberikan informasi dalam pengidentifikasian SNP pada genom kedelai dan

dapat menjadi referensi untuk penelitian yang terkait.

Ruang Lingkup Penelitian

Penelitian ini menggunakan data sekuens aksesi kedelai budidaya (Glycine

max [L.] Merr.) yang diambil dari penelitian Lam et al. (2010) dengan jumlah 14

aksesi yang disekuens menggunakan teknologi NGS.

TINJAUAN PUSTAKA

Algoritme Decision Tree

Algoritme decision tree adalah algoritme yang menggunakan konsep

diagram alir yang mirip dengan struktur pohon. setiap internal node menotasikan

atribut yang diuji dan setiap cabangnya mempresentasikan kelas-kelas tertentu

(Gorunescu 2011).

Pada decision tree memiliki tiga jenis node yaitu root node, internal node,

dan leaf node. Root node merupakan node paling atas. Node ini tidak memiliki input

dan bisa tidak memiliki output atau mempunyai output lebih dari satu. Internal node

merupakan node percabangan, pada node ini hanya terdapat satu input dan

mempunyai output minimal dua. Leaf node atau terminal node merupakan node

akhir. Pada ketiga node ini hanya terdapat satu input dan tidak mempunyai output.

3

Algoritme C5.0

Algoritme C5.0 merupakan penyempurnaan algoritme sebelumnya yang

dibentuk oleh Ross Quinlan pada tahun 1987 yaitu ID3 dan C4.5. Kelebihan dari

algoritme C5.0 yaitu dapat menghasilkan pohon keputusan dan aturan yang lebih

kecil jika dibandingkan dengan algoritme C4.5. Algoritme C4.5 dan C5.0 dapat

menghasilkan pengklasifikasian sebagai pohon keputusan atau berbasis aturan.

Adapun beberapa perbedaan algoritme C4.5 dan C5.0 (Rulequest 2012) :

1 Akurasi. C5.0 memiliki tingkat kesalahan yang lebih rendah dibandingkan

C4.5. C4.5 dan C5.0 memiliki akurasi prediksi yang sama, namun C5.0

memiliki aturan-aturan yang lebih kecil.

2 Kecepatan. C5.0 jauh lebih cepat dan optimal dibandingkan C4.5 dalam

pemrosesan.

3 Memory. C5.0 umumnya menggunakan lebih sedikit memori dibandingkan

C4.5, seperti dataset SNP membutuhkan lebih dari 3 GB untuk C4.5 tetapi

untuk C5.0 hanya membutuhkan kurang dari 200 MB.

Perbedaan utama antara C4.5 dan C5.0 adalah boosting dan winnowing.

Boosting adalah teknik untuk menghasilkan dan menggabungkan beberapa

pengklasifikasian untuk meningkatkan akurasi prediksi. Winnowing adalah

langkah seleksi fitur yang dilakukan sebelum pemodelan (Rulequest 2012).

Single Nucleotida Polymorphism (SNP)

Asam Deoksiribonukleat (DNA) memiliki tiga komponen utama yaitu

gugus fosfat, gula deoksiribosa dan basa nitrogen. Basa nitrogen terdiri atas

Adenina (A), Timina (T), Sitosina (C) dan Guanina (G). DNA membentuk gen,

sedangkan gen-gen terangkai dalam satu kromosom. Kromoson terdiri dari DNA

yang terangkai secara bersambung membentuk spiral dan berasosiasi dengan

protein histon dan non histon (Nusantari 2014).

SNP adalah variasi urutan DNA yang terjadi dalam suatu genom berbeda

antara anggota suatu spesies biologis atau kromosom. SNP merupakan marka

molekuler yang sangat populer untuk diteliti karena mampu memberikan informasi

keragaman DNA (Hasibuan 2014).

Next-Generation Sequence (NGS)

Next-Generation Sequencing (NGS) merupakan istilah yang digunakan

untuk menyebutkan perkembangan metode sequencing (pengurutan) DNA setelah

metode yang diperkenalkan oleh Sanger dan Maxam-Gilbert pada tahun 1977

(Kosasih 2012). Metode sanger dinilai memiliki beberapa kekurangan dalam hal

efektifitas dan jumlah basa yang berhasil diurutkan. Kekurangan tersebut dapat

diminimalkan dengan menggunakan teknologi Next-Generatin Sequencing (NGS)

yang dapat mengurutkan genom dan menghasilkan sekuen dalam jumlah yang

cukup banyak, waktu yang lebih singkat dan biaya yang relatif murah (Metzker

2010).

4

METODE

Data

Data yang digunakan merupakan data fitur SNP hasil penelitian oleh

Hasibuan et al. (2014) dan Istiadi et al. (2014) yang dibangkitkan dari data whole-

genome resequencing aksesi kedelai budidaya oleh Lam et al. (2010). Lampiran 1

merupakan data fitur SNP.

Tabel 1 Kandidat SNP

Kandidat SNP SNP Negatif SNP Positif Total SNP

Gm01 2 216 578 138 368 2 354 946

Gm02 2 053 313 118 931 2 172 244

Gm03 1 697 287 167 842 1 865 129

Gm04 1 984 997 138 537 2 123 534

Gm05 1 665 594 98 072 1 763 666

Gm06 1 894 290 156 612 2 050 902

Gm07 1 723 621 125 666 1 849 287

Gm08 1 838 578 120 657 1 959 235

Gm09 1 804 235 141 666 1 945 901

Gm10 2 019 999 127 063 2 147 062

Gm11 1 566 161 87 508 1 653 669

Gm12 1 572 862 99 986 1 672 848

Gm13 1 634 925 158 201 1 792 526

Gm14 1 964 990 12 135 1 977 125

Gm15 1 864 576 205 997 2 070 573

Gm16 1 369 758 154 817 1 524 575

Gm17 1 396 975 154 817 1 551 792

Gm18 2 377 348 233 097 2 610 445

Gm19 1 903 739 148 314 2 052 053

Gm20 1 857 111 143 595 2 000 706

Genom kedelai memiliki 20 kromosom yang diberi label Gm01 (Glycine

max, kromosom 01) sampai Gm20 (Glycine max, kromosom 20). Data genom

kedelai yang digunakan yaitu dua data kromosom yang terkecil dan dua data

kromosom yang terbesar untuk mengetahui apakah fitur yang dihasilkan akan sama

atau berbeda. Adapun dua data kromosom terkecil yaitu kromosom 11 (Gm11) dan

kromosom 16 (Gm16) sedangkan dua kromosom terbesar yaitu kromosom 18

(Gm18) dan kromosom 01 (Gm01). Kromosom yang digunakan yaitu genom

dengan kromosom 01 (Gm01), kromosom 11 (Gm11) kromosom 16 (Gm16), dan

kromosom 18 (Gm18). Data kromosom 01 (Gm01) memiliki kandidat SNP

sebanyak 2 354 946, kromosom 11 (Gm11) memiliki kandidat SNP sebanyak 1 653

669, kromosom 16 (Gm16) memiliki kandidat SNP sebanyak 1 048 575 dan

kromosom 18 (Gm18) memiliki kandidat SNP sebanyak 2 610 445. Data tersebut

merupakan data SNP yang dipresentasikan dalam 25 variabel yang terdiri atas 24

fitur sebagai variabel bebas dan 1 sebagai variabel terikat. Variabel terikat

menunjukkan kelas SNP yaitu termasuk SNP positif (true) atau SNP negatif (false).

Tabel 1 merupakan seluruh kandidat SNP negatif, SNP positif dan total SNP.

5

Tahapan Penelitian

Prosedur yang dilakukan pada penelitian ini terdiri atas lima tahap yaitu

pembagian data, pemodelan klasifikasi SNP menggunakan algoritme C5.0,

pengujian klasifikasi SNP, evaluasi model klasifikasi dan analisis. Gambar 1

menunjukkan tahapan penelitian yang dilakukan.

Gambar 1 Tahapan penelitian

Pembagian Data

Data dibagi menjadi dua bagian yaitu data latih dan data uji. Data yang

digunakan yaitu data Gm01, Gm11, Gm16 dan Gm18. Pada model 1 data Gm11

digunakan sebagai data latih dan Gm16 sebagai data uji. Sedangkan, pada model 2

data Gm18 digunakan sebagai data latih dan Gm01 sebagai data uji.

Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0

Pemodelan dilakukan dengan membuat pohon keputusan menggunakan

algoritme C5.0 terhadap data latih Gm11 dan Gm18. Model klasifikasi yang

dibentuk oleh pohon keputusan algoritme C5.0 ini berbasis aturan yang terdiri

dari kondisi if-then dan direpresentasikan kedalam bentuk pohon keputusan.

Pohon keputusan merupakan suatu diagram yang mirip dengan struktur

flowchart, dimana masing-masing simpul merupakan atribut, masing-masing

cabang menunjukan nilai dari atribut dan masing-masing simpul daun

menunjukan label kelas. Algoritme C5.0 melakukan pemilihan atribut yang akan

diproses menggunakan information gain paling besar. Atribut yang memiliki

information gain terbesar dipilih sebagai parent dan nilai besar lainnya

6

digunakan untuk node selanjutnya. Persamaan entropy dan information gain yang

digunakan pada algoritme C5.0 seperti pada Persamaan 1 (Han et al. 2012).

Info(D)= - ∑ PiLog2(Pi)

m

i=1

(1)

Info (D) adalah nilai entropy dari sampel data D, m adalah jumlah kelas

yang ada pada atribut, sedangkan Pi adalah peluang dari kelas i atau rasio dari

kelas. Nilai entropy yang dihasilkan untuk mengklasifikasikan tuple dari D

berdasarkan partisi oleh A menggunakan formula seperti pada Persamaan 2 (Han

et al. 2012).

InfoA(D)= ∑|Dj|

D × Info(Dj)

v

j=1

(2)

Partisi tuple di D pada beberapa atribut A memiliki nilai v yang berbeda {a1,

a2, …, av} dari data latih. Atribut A digunakan untuk memisahkan D ke dalam v

partisi atau sub himpunan {D1, D2, …, Dv}. |Dj|

|D| merupakan bobot partisi ke-j.

Information gain yang diperoleh pada atribut A menyatakan bahwa ada beberapa

banyak cabang yang akan diperoleh pada A. Atribut A dengan information gain

tertinggi dipilih sebagai atribut pada node. Nilai gain dapat dihitung dengan

formula seperti pada Persamaan 3 (Han et al. 2012).

Gain (A) = Info (D) – InfoA (D) (3)

Pembentukan model klasifikasi tersebut dilakukan menggunakan

package yang tersedia pada perangkat lunak R yaitu “C50”. Klasifikasi

menggunakan data latih untuk mendapatkan model klasifikasi.

Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0

Pengujiann dilakukan terhadap model klasifikasi yang diperoleh. Pengujian

model menggunakan data uji sebagai data masukan. Pada proses pengujian kelas

pada data uji tersebut, kelas yang diprediksi dibandingkan dengan data aktualnya.

Prediksi kelas dilakukan dengan bantuan perangkat lunak R menggunakan fungsi

Predict pada package C50.

Pengujian model diukur untuk melihat seberapa baik model yang

dibangkitkan dengan menggunakan confusion matrix. Confusion matrix

mengandung nilai informasi tentang hasil aktual dan prediksi dari proses klasifikasi

yang dilakukan oleh sistem (Han et al. 2012). Hasil klasifikasi dikelompokkan

menjadi true positive (TP), false positive (FP), False Negative (FN) dan True

Negative (TN). TP dan TN menunjukkan banyaknya data kelas positif dan kelas

negatif yang diklasifikasikan secara benar ke dalam kelas positif dan negatif secara

berurutan. FP dan FN menujukkan banyaknya data kelas negatif dan kelas positif

yang diklasifikasikan ke dalam kelas yang sebaliknya secara berurutan (Sokolova

dan Lapalme 2009). Pengujian hasil klasifikasi dapat dihitung dari confusion matrix

adalah sensitivity, precision dan f-measure. Empat hasil pengelompokkan tersebut

tersusun dalam confusion matrix pada Tabel 2.

7

Tabel 2 Confusion matrix

Prediksi

Aktual Positive Negative

Positive True Positive (TP) False Negative (FN)

Negative False Positive (FP) True Negative (TN)

Berdasarkan klasifikasi terhadap confusion matrix, dapat dihitung nilai

akurasi yang merupakan perbandingan dari SNP yang diklasifikasikan secara benar.

Cara menghitung akurasi dapat dihitung seperti pada Persamaan 4 (Han et al. 2012).

Akurasi = TP + TN

TP + FP + FN + TN

(4)

Selain dari pengukuran akurasi, evaluasi metrik juga dilakukan terhadap

sensitivity dan precision. Sensitivity atau recall rate adalah perbandingan jumlah

kelas positif yang diklasifikasikan benar dengan jumlah seluruh kelas positif.

Sedangkan, precision adalah perbandingan jumlah kelas positif yang

diklasifikasikan benar dengan jumlah seluruh data yang diklasifikasikan sebagai

positif. Perhitungan sensitivity dan precision dapat dihitung seperti pada Persamaan

5 dan 6 (Han et al. 2012).

Sensitivity = TP

TP + FN

(5)

Precision = TP

TP + FP

(6)

Selain itu, evaluasi juga dilakukan terhadap f-measure untuk menghitung

kemampuan model dalam memetakan kelas positif dan negatif yang benar dapat

dihitung seperti pada Persamaan 7 (Han et al. 2012).

F-measure = 2 × Presicion × Sensitivity

Precison + Sensitivity

(7)

Evaluasi

Evaluasi bertujuan untuk menentukan kinerja suatu model klasifikasi.

Evaluasi dilakukan menggunakan confusion matrix yang sudah dilakukan pada

proses sebelumnya. Evaluasi hasil klasifikasi dapat dihitung dengan sensitivity,

precision dan f-measure.

Analisis

Tahap analisis terdiri atas analisis peforma terhadap model klasifikasi dan

analisis fitur-fitur yang berperan dalam mengidentifikasi SNP. Analisis peforma

8

berdasarkan perhitungan proporsi positif yang diklasifikasikan secara benar atau

sensitivity, perbandingan jumlah kelas positif yang diklasifikasikan benar dengan

jumlah seluruh data yang diklasifikasikan sebagai positif atau precision dan

perhitungan kemampuan model dalam memetakan kelas positif dan tidak

mengelompokkan kelas negatif ke kelas positif atau f-measure. Selanjutnya, analisis

fitur berdasarkan fitur-fitur yang memiliki nilai kepentingan terbsesar dari fitur

yang lainnya.

Peralatan Penelitian

Penelitian ini menggunakan dua perangkat keras untuk data yang berbeda

yaitu:

1 Data Gm11 dan Gm16 menggunakan processor Intel core i3-5005U, RAM 4

GB dan Harddisk drive 1 TB

2 Data Gm01 dan Gm18 menggunakan processor Intel core i7-7700, RAM 8 GB

dan Harddisk drive 1 TB

Perangkat lunak yang digunakan dalam penelitian ini yaitu:

1 Sistem operasi Windows 10 (64-bit)

2 R versi 3.3.3 dengan package C50 untuk membuat model klasifikasi

3 Microsoft Word 2013 untuk membuat laporan

HASIL DAN PEMBAHASAN

Pembagian Data

Data Gm11 dan Gm16 merupakan data yang memiliki jumlah kandidat SNP

paling sedikit sehingga mampu dilakukan pengolahan data dengan peforma

komputasi dan memori yang cukup rendah. Sedangkan data Gm01 dan Gm18

merupakan data yang memiliki jumlah kandidat SNP paling banyak dan

membutuhkan peforma komputasi dan memori yang cukup besar dalam pengolahan

data tersebut.

Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0

Tahap pemodelan dilakukan dengan menggunakan perangkat lunak R dan

package C50 untuk pemodelan, dan Caret untuk mendapatkan confusion matrix,

precision, dan sensitivity. Tahap awal dimulai dengan menghitung information

gain, setiap information gain tersebut digunakan untuk menentukan node-node atau

sebagai parent.

Proses pemodelan dilakukan terhadap data latih Gm11 dan Gm18

menggunakan algoritme pohon keputusan C5.0. Algoritme tersebut menghasilkan

model klasifikasi berupa model pohon keputusan dan berbasis aturan. Model

berbasis pohon memiliki banyak aturan yang dapat disederhanakan dan dipangkas sehingga aturan yang diturunkan dapat berjumlah sedikit. Pada Tabel 3 Gm11

9

menghasilkan 395 jumlah pohon keputusan dan dipangkas menjadi 192 jumlah

aturan. Penggalan pohon keputusan Gm11 dilampirkan pada Lampiran 2 dan

penggalan aturan Gm11 dilampirkan pada Lampiran 3. Pada Tabel 3 Gm18

menghasilkan 3 902 jumlah pohon keputusan dan dipangkas menjadi 680 aturan.

Penggalan pohon keputusan Gm18 dilampirkan pada Lampiran 4 dan penggalan

aturan Gm18 dilampirkan pada Lampiran 5.

Tabel 3 Model berbasis pohon keputusan dan berbasis aturan

Data latih Jumlah pohon Jumlah aturan

Gm11 395 192

Gm18 3 902 680

Setiap model yang dihasilkan kemudian dilakukan pengujian dengan

mengklasifikasikan kelas data uji. Kelas yang diprediksi dihitung presentasenya

dari data yang sesuai kelas real data uji. Prediksi yang dilakukan menggunakan

fungsi Predict pada library C50. Perhitungan presentase tersebut dilakukan dengan

menggunakan metode confusion matrix. Confusion matrix diperoleh dengan

menggunakan fungsi ConfusionMatrix yang terdapat pada library Caret. Pada

model 1 diperoleh akurasi sebesar 0.92 sedangkan pada model 2 diperoleh akurasi

sebesar 0.95.

Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0

Pengujian klasifikasi dilakukan dengan mengklasifikasikan data uji. Kelas

yang diprediksi dapat diklasifikasikan kedalam metrik confusion matrix. Pengujian

dapat dihitung dengan sensitivity, precision dan f-measure.

Tabel 4 Confusion matrix model 1

Aktual Prediksi

Positive Negative

Positive 90 666 (TP) 64 151 (FN)

Negative 44 155 (FP) 1 325 603 (TN)

Tabel 5 Confusion matrix model 2

Aktual Prediksi

Positive Negative

Positive 81 886 (TP) 56 482 (FN)

Negative 49 196 (FP) 2 167 382 (TN)

Tabel 4 dan 5 menunjukkan bahwa nilai True Negative memiliki jumlah

yang lebih banyak dibandingkan dengan nilai True Positive dan juga terhadap nilai

False Negative lebih banyak dibandingkan False Positive. Hal tersebut disebabkan

kandidat SNP negatif (True Negative) memiliki jumlah yang lebih banyak dibandingkan kandidat SNP yang sebenarnya (True Positive), seperti pada Tabel 1.

Tabel 6 merupakan hasil pengujian terbaik dari dua model klasifikasi yang

diuji. Model 1 dihasilkan nilai Sensitivity sebesar 0.58, Precision sebesar 0.67 dan

10

f-measure sebesar 0.62. Model 2 dihasilkan nilai Sensitivity sebesar 0.59, Precision

sebesar 0.62 dan f-measure sebesar 0.60.

Tabel 6 Hasil pengujian terbaik dua model klasifikasi

Model Sensitivity Precision f-measure

1 0.58 0.67 0.62

2 0.59 0.62 0.60

Evaluasi

Evaluasi hasil model klasifikasi dilihat dalam beberapa ukuran yaitu

sensitivity, precision dan f-measure. Hasil dari model 1 (Gm11) dan model 2 (Gm18)

ditunjukkan pada Tabel 6. Model terbaik akan dipilih berdasarkan kriteria tingginya

nilai f-measure. Pada model 1 diperoleh nilai f-measure yang lebih besar dibandingkan

model 2 yaitu sebesar 0.62. Hal tersebut menunjukan model 1 dapat membangun

model lebih baik dibandingkan model 2 berdasarkan f-measure.

Analisis

Analisis dibagi menjadi dua yaitu analisis peforma dilakukan dengan

membandingkan metode yang dilakukan peneliti lain. Analisis peforma dilakukan

berdasarkan nilai sensitivity, precision, dan f-measure.

Tabel 7 Perbandingan hasil model

Data Model Sensitivity Precision F-measure

Latih Uji

Gm11 Gm16 Algorime C5.0 0.58 0.67 0.62

SVM 0.94 0.41 0.57

Bagging CART 0.60 0.66 0.63

Gm 18 Gm01 Algoritme C5.0 0.59 0.62 0.60

Genetic

Programming 0.92 0.30 0.45

Bagging CART 0.47 0.56 0.51

Tabel 7 merupakan tabel perbandingan hasil model dengan metode yang

berbeda. Perbandingan hasil yang dilihat dari nilai f-measure pada data latih Gm11

dan data uji Gm16 menunjukkan bahwa metode Bagging CART dapat membangun

model lebih baik dibandingkan metode Algoritme C5.0 maupun metode SVM

seperti yang dilakukan oleh Hasibuan (2014). Namun, model SVM mampu

mendapatkan nilai sensitivity lebih besar yaitu 0.94 dibandingkan algoritme C5.0

dan Bagging CART. Hal ini menunjukan model yang dibangkitkan menggunakan

SVM lebih baik dalam mengidentifikasi kelas SNP positif. Adapun pengujian data

latih Gm18 dan data uji Gm01 menunjukkan bahwa metode Algoritme C5.0 dapat membangun model lebih baik dibandingkan metode Genetic Programming (GP)

11

yang dilakukan oleh Istiadi (2015) maupun metode Bagging CART yang dilakukan

oleh Hudachair (2017). Model Algoritme C5.0 mampu mendapatkan nilai f-measure

lebih besar yaitu 0.60 dibandingkan nilai f-measure dari model Genetic Programming

(GP) maupun bagging CART.

Tabel 8 Persentase fitur Gm11 dan Gm18

Nama Fitur Tingkat kepentingan

Fitur Gm11 (%)

Tingkat Kepentingan

Fitur Gm18 (%)

error prob 99.86 32.61

homopolymer left 93.15 90.58

max qual minor 92.60 89.47

mismatch alt 90.68 99.33

mean qual minor 89.66 87.37

area mismatch 89.59 88.90

homopolymer right 89.45 86.74

mismatch ref 78.30 79.89

dinuc right 77.56 52.19

total depth 70.02 62.95

rel dist 64.70 66.45

max qual minor 59.99 89.47

mean nearby qual 46.13 96.71

mean base qual 42.15 39.04

max qual major 32.68 39.04

dinuc left 22.23 68.57

tstv 14.54 74.32

freq minor 14.52 89.43

nuc diversity 10.50 81.63

flank right 8.98 71.47

freq major 8.77 16.14

flank left 8.36 75.87

allel balance - 71.85

mean qual major - 21.41

Tabel 8 merupakan tabel presentase fitur-fitur Gm11 dan Gm18 yang

berperan dalam pengklasifikasian. Pada Tabel 8 dilakukan analisis fitur yang

berperan dengan melihat jumlah kemunculan terbesar dalam bentuk persentase.

Pada data latih Gm11 dan data uji Gm16 dapat dilihat fitur yang lebih berperan

yaitu error prob dan homopolymer left. Sedangkan, pada data latih Gm18 dan data

uji Gm01 dapat dilihat fitur yang lebih berperan yaitu mismatch alt dan mean

nearby qual. Fitur-fitur yang memiliki nilai presentase tertinggi dianggap memiliki

kontribusi yang lebih besar dalam mengidentifikasi SNP dibandingkan fitur-fitur

yang lain yang tersedia.

12

SIMPULAN DAN SARAN

Simpulan

Klasifikasi SNP pada genom kedelai menggunakan algoritme C5.0 telah

berhasil diterapkan untuk membangun model klasifikasi SNP. Nilai f-measure yang

diperoleh pada model 1 (Gm11 dan Gm16) yaitu 0.58 dan pada model 2 (Gm18

dan 01) yaitu 0.58. Fitur yang paling berperan dalam mengidentifikasi SNP pada

model 1 (Gm11 dan Gm16) adalah error prob dan homopolymer left. Sedangan

fitur-fitur yang berperan pada model 2 (Gm01 dan Gm18) adalah mismatch alt dan

mean nearby qual.

Saran

Penelitian selanjutnya disarankan untuk melakukan metode bagging atau

boosting untuk meningkatkan akurasi prediksi dan melakukan sampling untuk

penyeimbangan data.

DAFTAR PUSTAKA

Boopathi NM. 2013. Marker-Assisted Selection. Springer. doi:10.1007/978-81322-

0958-4_8.

Gorunescu F. 2011. Data Mining Concepts, Model and Techniques. Berlin:

Springer.

Gupta P, Roy J, Prasad M. 2001. Single nucleotide polymorphism: A new paradigm

for molecular marker technology and DNA polymorphism detection with

emphasis on their use in plants. Current Science. 80(4):524-535.doi: pp. 524-

535.

Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques. 3rd ed.

Massachusetts (US): Morgan Kaufmann.

Hasibuan LS, Kusuma WA, Suwarno WB. 2014. Identification of Single

Nucleotide Polymorphism using Support Vector Machine on Imbalanced

Data. Di dalam: 2014 International Conference on Advanced Computer

Science and Information Systems. 2014 Oct 18-19; Jakarta, Indonesia. Jakarta

(ID): Universitas Indonesia. hlm 371-375.

Hudachair N. 2017. Analisis Cart dan Bagging Cart Pada Big Data dalam

Identifikasi Single Nucleotide Polymorhysm (SNP) [skripsi]. Bogor (ID):

Institut Pertanian Bogor.

Istiadi MA, Kusuma WA, Tasma IM. 2014. Application of Decision Tree Classifier

for Single Nucleotide Polymorphism Discovery from Next-Generation

Sequencing. Di dalam: 2014 International Conference on Advanced

Computer Science and Information Systems. 2014 Oct 18-19; Jakarta,

Indonesia. Jakarta (ID): Universitas Indonesia. hlm 335-339.

13

Istiadi MA. 2015. Identifikasi Single Nucleotide Polymorphism Pada Genom

Kedelai Menggunakan Metode Genetic Programming [tesis]. Bogor (ID):

Institut Pertanian Bogor.

Kosasih, A. 2012. Konstruksi dan Analisis Kualitas Pustaka Genom Kedelai

(Glycine max [L.] Merr.) untuk Sekuensing Genom Total [skripsi]. Bogor

(ID): Institut Pertanian Bogor, Bogor.

Lam HM, Xun X, Xin L, Wenbin C, Guohua Y, Fuk-Ling W, Man-Wah L,

Weiming H, Nan Q, Bo W, et al. 2010. Resequencing of 31 wild and

cultivated soybean genomes identifies patterns of genetic diversity and

selection. Nat Genet. 42(12):1053–9.

Mammadov J, Aggarwal R, Buyyarapu R, Kumpatla S. 2012. SNP Markers and

Their Impact on Plant Breeding. Int. J. Plant Genomics. 2012:1-11.

Metzker M.L. 2010. Sequencing Technologies - The Next Generation. Nature

Reviews Genetics, 11(1), 31-46. Di dalam: Istiadi MA. 2015. Identifikasi

Single Nucleotide Polymorphism Pada Genom Kedelai Menggunakan

Metode Genetic Programming [tesis]. Bogor (ID): Institut Pertanian Bogor.

Nusantari E. 2014. Jenis Miskonsepsi Genetika yang Ditemukan pada Buku Ajar di

Sekolah Menengah Atas.

Rulequest. 2012. Data mining tools see5 and C5.0. [Internet]. [diunduh 2017 Nov

12]. Tersedia pada: http//rulequest.com/see5-comparison.html.

Sokolova M, Lapalme G. 2009. A Systematic Analysis of Performance Measures

for Classification Tasks. Information Processing and Management. 45(4):427-

437.doi: 10.1016/j.ipm.2009.03.002.

14

Lampiran 1 Daftar fitur data penelitian

No Nomor

Fitur

Fitur Keterangan

1 1 ts tv Tipe polimorfisme (transition/tranversion)

2 2,3 max qual major

dan max qual

minor

Kualitas maksimal alel mayor dan minor

pada posisi kandidat SNP

3 4,5 max qual major

dan max qual

minor

Rata-rata kualitas alel mayor dan minor

4 6,7 freq major dan

freq minor

Banyak kemunculan alel mayor dan minor

dibagi total depth pada posisi kandidat SNP

5 8 Rel dist Jarak relative kandidat SNP ke ujung

fragmen terdekat dan dibagi dengan panjang

fragmen

6 9 mean base qual Rata-rata kualitas nukleotida pada posisi

kandidat SNP

7 10 total depth Banyaknya fragmen yang dijajarkan pada

posisi kandidat SNP

8 11 mean mapping

qual

Rata-rata kualitas penjajaran

9 12 error prob Peluang kandidat SNP adalah homozigot,

heterozigot dan error

10 13,14 dinuc left dan

dinuc right

Banyaknya perulangan dinukleotida pada

sebelah kiri dan kanan genom rujukan di

posisi sekitar kandidat SNP

11 15 area mismatch Rata-rata jumlah kandidat SNP pada setiap

fragmen

12 16,17 homopolymer

left dan

homopolymer

right

Banyaknya homopolimer di kiri dan kanan

posisi kandidat SNP pada genom rujukan

13 18 nuc diversity Deviasi nukleotid-nukleotida pada genom

rujukan pada daerah 10 bp kanan dan kiri

kandidat SNP

14 19,20 mismatch ref dan

mismatch alt

Jumlah polimorfisme nukleotida pada

fragmen yang memiliki kandidat SNP dan

jumlah polimorfisme nukleotida pada

fragmen yang sama terhadap genom rujukan

pada posisi kandidat SNP

15 21

allel balance

Perbandingan antara fragmen yang

mengandung polimorfisme nukleotida dan

total depth pada posisi kandidat SNP

16 22 mean nearby

qual

Rata-rata kualitas nukleotida yang mengapit

posisi kandidat SNP ke kandidat SNP

17 23,24 flank left dan

flank right

Jarak antara kandidat SNP ke kandidat SNP

terdekat lainnya pada posisi kiri dan kanan

15

Lampiran 2 Pohon keputusan Gm11

16

Lampiran 3 Aturan Gm11

17

Lampiran 4 Pohon keputusan Gm18

18

Lampiran 5 Aturan Gm18

19

RIWAYAT HIDUP

Penulis dilahirkan di Bogor pada tanggal 10 Septmber 1995 dari pasangan

Bapak Syarifudin dan Ibu Yayah Yasin. Penulis adalah putri pertama dari dua

saudara. Penulis lulus dari SMA Insan Kamil pada tahun 2013 dan pada tahun yang

sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur

beasiswa utusan daerah (BUD) diterima di Departemen Ilmu Komputer, Fakultas

Matematika dan Ilmu Pengetahuan Alam.

Selama mengikuti perkuliahan, penulis pernah menjadi panitia dalam

beberapa kegiatan sejak 2014 sampai 2016. Penulis melaksanakan praktik kerja

lapangan di SEAMEO BIOTROP, Bogor sebagai system developer.

identifikasi single nucleotide polymorphism (snp) …repository.unugha.ac.id/697/1/17.pdf · 2019....

Documents