identifikasi single nucleotide polymorphism (snp) …repository.unugha.ac.id/697/1/17.pdf · 2019....
TRANSCRIPT
IDENTIFIKASI SINGLE NUCLEOTIDE POLYMORPHISM
(SNP) PADA GENOM KEDELAI MENGGUNAKAN
ALGORITME C5.0
SITA NABILA KAMELINA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2018
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Identifikasi Single
Nucleotide Polymorphism (SNP) pada Genom Kedelai Menggunakan Algoritme
C5.0 adalah benar karya saya dengan arahan dari komisi pembimbing dan belum
diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir disertasi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Mei 2018
Sita Nabila Kamelina
NIM G64130096
ABSTRAK
SITA NABILA KAMELINA. Identifikasi Single Nucleotide Polymorphism (SNP)
pada Genom Kedelai Menggunakan Algoritme C5.0. Dibimbing oleh LAILAN
SAHRINA HASIBUAN.
Teknologi sequencing DNA mampu melakukan sequencing secara mudah
dan cepat, sehingga dapat menghasilkan data sequencing dalam ukuran yang sangat
besar. Identifikasi Single Nucleotide Polymorphism (SNP) pada data sequencing
DNA merupakan masalah yang kompleks karena ukuran data yang digunakan
sangat besar dan banyaknya error pada tahap sequecing itu sendiri. Salah satu
dampak error pada proses sequencing DNA adalah banyaknya polimorfisme palsu.
Tujuan penelitian ini yaitu untuk mengidentifikasi SNP menggunakan algoritme
C5.0 dan menganalisis fitur-fitur yang terbaik dalam proses identifikasi SNP. Data
yang digunakan adalah data whole-genome dari kedelai budidaya (Glycine max [L.]
Merr.) yang disekuens dengan teknologi Next-Generation Sequecing (NGS). Tahap
pemodelan dan pengujian menggunakan data latih Gm11 dan data uji Gm16.
Algoritme C5.0 mampu mengklasifikasikan kelas true dengan sensitivity sebesar
0.58 dan precision sebesar 0.67 yang berarti banyak terdapat false positive, dan
kemampuan model klasifikasi SNP dengan benar dengan f-measure sebesar 0.62.
Kata kunci: Algorithm C5.0, Next-Generation sequencing, Single Nucleotide
Polymorphism.
ABSTRACT
SITA NABILA KAMELINA. Identifikasi Single Nucleotide Polymorphism (SNP)
pada Genom Kedelai Menggunakan Algoritme C5.0. Dibimbing oleh LAILAN
SAHRINA HASIBUAN.
DNA sequencing technology is able to sequence DNA easily and quickly, it
affects the producing of DNA data which becomes very large in volume. The
identification of Single Nucleotide Polymorphism (SNP) in DNA sequencing data
is a complex problem because the data volume is very large and it has many errors
due to the previous stage in DNA sequencing. The large number of spurious SNP
is the negative impact of them. The purpose of this study is to identify the SNP
using the C5.0 algorithm and analyze the best features in the SNP identification
process. The data used were whole-genome data from cultivation soybean (Glycine
max [L.] Merr.) which was sequenced by Next-Generation Sequencing Technology
(NGS). Modelling and testing phase using Gm11 and Gm16 for training and testing
respectively. The results show that model is able to classify the positive class with
sensitivity is 0.58, and precision is 0.67. These numbers illustrate that there are
many false positives. The f-measure of the model was also calculated, it is 0.62, it
shows that the model is able to identify positive SNPs and to not classify negative
SNPs as positives SNPs
Keywords: Algorithm C5.0, Next-Generation Sequencing, Single Nucleotide
Polymorphism.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
KLASIFIKASI SINGLE NUCLEUTIDE POLYMORPHISM
(SNP) PADA GENOM KEDELAI MENGGUNAKAN
ALGORITME C5.0
SITA NABILA KAMELINA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2018
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dengan judul Klasifikasi Single Nucleutide polymorphism (SNP) pada
Genom Kedelai Menggunakan Algoritme C5.0.
Banyak kendala dan tantangan yang dihadapi penulis dari awal penelitian
dilaksanakan hingga menyelesaikan karya ilmiah untuk gelar Sarjana ini. Doa,
dukungan, pengertian, dan kasih sayang dari Ibu Yayah Yasin, dan keluarga besar
Bojong Kulur menjadi kekuatan utama bagi penulis menyelesaikan penelitian ini.
Terima kasih yang sangat besar juga penulis sampaikan kepada Ibu Lailan Sahrina,
SKom MKom selaku pembimbing, yang senantiasa memberi arahan, saran, dan
motivasi dengan sabar, terarah, tulus, dan ikhlas.
Penulis juga menyampaikan terima kasih kepada:
1 Kedua orang tua tercinta yaitu Bapak H. Syarifudin dan Ibu Hj. Yayah Yasin,
serta Nenek Warsih dan Tante Embon Nurbastia Dewi yang setia memberikan
doa dan dukungan kepada penulis,
2 Bapak Muhammad Ahsyar Agmalaro, SSi MKom dan Bapak Dr Wisnu Ananta
Kusuma, ST MT selaku penguji yang telah memberi masukan dan arahan
perbaikan,
3 Bapak Prof Dr Ir Agus Buono, MSi MKom selaku Ketua Departemen Ilmu
Komputer IPB,
4 Seluruh dosen, staf tata usaha, dan staf pegawai Departemen Ilmu Komputer
IPB,
5 Teman-teman terdekat, yaitu Mia, Namira, Annazah, Nina, Sarah, Nurin, Wasil,
Nurul, Akhiyar
6 Seluruh teman seperjuangan Program S1 Ilmu Komputer IPB angkatan 50 serta,
7 Teman-teman dan sahabat lainnya yang tidak dapat penulis ucapkan satu per
satu.
Semoga segala doa, bantuan, bimbingan, motivasi, dan dukungan yang telah
diberikan kepada penulis senantiasa dibalas oleh Allah subhanahu wa ta’ala.
Semoga karya ilmiah ini memberikan manfaat dan wawasan bagi pembaca.
Bogor, Mei 2018
Sita Nabila Kamelina
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
PENDAHULUAN 1
Latar Belakang 1
Perumusan Masalah 2
Tujuan Penelitian 2
Manfaat Penelitian 2
Ruang Lingkup Penelitian 2
TINJAUAN PUSTAKA 2
Algoritme Decision Tree 2
Algoritme C5.0 3
Single Nucleotida Polymorphism (SNP) 3
Next-Generation Sequence (NGS) 3
METODE 4
Data 4
Tahapan Penelitian 5
Pembagian Data 5
Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0 5
Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0 6
Evaluasi 7
Analisis 7
Peralatan Penelitian 8
HASIL DAN PEMBAHASAN 8
Pembagian Data 8
Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0 8
Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0 9
Evaluasi 10
Analisis 10
SIMPULAN DAN SARAN 12
DAFTAR TABEL
1 Kandidat SNP 4
2 Confusion matrix 7
3 Model berbasis pohon keputusan dan berbasis aturan 9
4 Confusion matrix model 1 9
5 Confusion matrix model 2 9
6 Hasil pengujian terbaik dua model klasifikasi 10
7 Perbandingan hasil model 10
8 Persentase fitur Gm11 dan Gm18 11
DAFTAR GAMBAR
1 Tahapan Penelitian 5
DAFTAR LAMPIRAN
1 Daftar fitur data penelitian 14
2 Pohon keputusan Gm11 15
3 Aturan Gm11 16
4 Pohon keputusan Gm18 17
5 Aturan Gm18 18
PENDAHULUAN
Latar Belakang
Produktivitas kedelai di Indonesia belum mampu mengimbangi kebutuhan
masyarakat akan kedelai. Oleh sebab itu, penggunaan bibit unggul dalam
penanaman sangat diperlukan guna meningkatkan produktivitas kedelai. Budi daya
kedelai dengan memanfaatkan informasi genetik berpotensi menghasilkan bibit
unggul secara efektif dan efisien dari segi waktu (Mammadov et al. 2012).
Pemanfaatan informasi genetik terus meningkat seiring perkembangan
teknologi sequencing DNA. Next-Geration Sequencing (NGS) merupakan
teknologi sequencing DNA yang mampu menghasilkan throughput yang tinggi
dalam waktu yang singkat dan biaya yang relatif murah. NGS mampu melakukan
sequencing DNA manusia dalam waktu yang hingga 15 tahun untuk menyelesaikan
(Boopathi 2013).
Informasi genetik dari data sequence DNA yang umumnya dimanfaatkan
untuk pengembangan bibit unggul adalah Single Nucleotide Polymorphism (SNP)
(Istiadi 2015). SNP merupakan polimorfisme satu buah nukleotida dari DNA-DNA
yang dijajarkan pada spesies yang sama namun varietas berbeda (Gupta et al. 2001).
Penjajaran fragmen dengan genom referensi merupakan tahap sebelum melakukan
identifikasi SNP. Identifikasi SNP memiliki kesulitan dalam hal mengidentifikasi
polimorfisme yang sebenarnya (true) dan polimorfisme palsu (false).
Penelitian mengenai identifikasi SNP telah dilakukan oleh Hasibuan et al.
(2014) menggunakan metode Support Vector Machine (SVM) dengan data kedelai
budidaya (Glycine max [L.] Merr.). Penelitian tersebut mengevaluasi beberapa
teknik penyeimbangan data dan pengaruhnya pada peforma SVM. Berdasarkan
penelitian tersebut diperoleh nilai akurasi sebesar 0.85 dengan nilai f-measure sebesar
0.57. Penelitian selanjutnya dilakukan oleh Istiadi (2015) menggunakan data
fragmen whole-genome yang dijajarkan dengan genom rujukan jenis William 82
pada kromosom 01 dengan metode genetic programming (GP). Penelitian tersebut
menghasilkan sensitivity dan specificity terbaik yaitu masing-masing sebesar
92.39% dan 86.63%. Namun, precision yang dihasilkan masih sangat rendah yaitu
sebesar 30.14%. Hudachair (2017) menggunakan data whole-genome kedelai
dengan metode bagging clasification and regression tree (bagging CART) yang
memperoleh nilai f-measure sebesar 0.63%.
Penelitian ini menggunakan salah satu dari teknik data mining yaitu algoritme
C5.0. Algoritme C5.0 merupakan penyempurnaan dari algoritme ID3 dan C4.5
yang dibentuk oleh Ross Quinlan pada tahun 1987. Algoritme C5.0 telah dirancang
untuk dapat menganalisis basis data subtansial yang berisi ratusan atau lebih record
yang memiliki variabelnya hingga ratusan field numerik atau nominal. Hasil
klasifikasi algoritme C5.0 disajikan dalam bentuk sekumpulan aturan if-then atau
berbentuk pohon keputusan agar lebih mudah dibaca oleh pengguna (Rulequest
2012). Penelitian ini menggunakan model klasifikasi untuk mengidentifikasi SNP
positif dan SNP negatif dengan algoritme C5.0 terhadap dataset genom kedelai dan
menganalisis fitur terbaik yang berperan pada pembangunan model.
2
Perumusan Masalah
Rumusan masalah penelitian ini yaitu:
1 Bagaimana menerapkan algoritme C5.0 untuk identifikasi SNP pada genom
kedelai?
2 Bagaimana menganalisis fitur-fitur yang berperan dalam proses identifikasi
SNP positif dan SNP negatif pada genom kedelai?
Tujuan Penelitian
Tujuan penelitian ini adalah sebagai berikut:
1 Mengidentifikasi SNP positif dan SNP negatif dengan menerapkan algoritme
C5.0 pada genom kedelai.
2 Menganalisis fitur-fitur yang berperan dalam pengidentifikasian SNP positif
dan SNP negatif pada genom kedelai.
Manfaat Penelitian
Manfaat peneletian ini adalah sebagai berikut:
1 Hasil identifikasi SNP dapat dimanfaatkan untuk analisis asosiasi antara SNP
dan fenotipe pada genom kedelai.
2 Memberikan informasi dalam pengidentifikasian SNP pada genom kedelai dan
dapat menjadi referensi untuk penelitian yang terkait.
Ruang Lingkup Penelitian
Penelitian ini menggunakan data sekuens aksesi kedelai budidaya (Glycine
max [L.] Merr.) yang diambil dari penelitian Lam et al. (2010) dengan jumlah 14
aksesi yang disekuens menggunakan teknologi NGS.
TINJAUAN PUSTAKA
Algoritme Decision Tree
Algoritme decision tree adalah algoritme yang menggunakan konsep
diagram alir yang mirip dengan struktur pohon. setiap internal node menotasikan
atribut yang diuji dan setiap cabangnya mempresentasikan kelas-kelas tertentu
(Gorunescu 2011).
Pada decision tree memiliki tiga jenis node yaitu root node, internal node,
dan leaf node. Root node merupakan node paling atas. Node ini tidak memiliki input
dan bisa tidak memiliki output atau mempunyai output lebih dari satu. Internal node
merupakan node percabangan, pada node ini hanya terdapat satu input dan
mempunyai output minimal dua. Leaf node atau terminal node merupakan node
akhir. Pada ketiga node ini hanya terdapat satu input dan tidak mempunyai output.
3
Algoritme C5.0
Algoritme C5.0 merupakan penyempurnaan algoritme sebelumnya yang
dibentuk oleh Ross Quinlan pada tahun 1987 yaitu ID3 dan C4.5. Kelebihan dari
algoritme C5.0 yaitu dapat menghasilkan pohon keputusan dan aturan yang lebih
kecil jika dibandingkan dengan algoritme C4.5. Algoritme C4.5 dan C5.0 dapat
menghasilkan pengklasifikasian sebagai pohon keputusan atau berbasis aturan.
Adapun beberapa perbedaan algoritme C4.5 dan C5.0 (Rulequest 2012) :
1 Akurasi. C5.0 memiliki tingkat kesalahan yang lebih rendah dibandingkan
C4.5. C4.5 dan C5.0 memiliki akurasi prediksi yang sama, namun C5.0
memiliki aturan-aturan yang lebih kecil.
2 Kecepatan. C5.0 jauh lebih cepat dan optimal dibandingkan C4.5 dalam
pemrosesan.
3 Memory. C5.0 umumnya menggunakan lebih sedikit memori dibandingkan
C4.5, seperti dataset SNP membutuhkan lebih dari 3 GB untuk C4.5 tetapi
untuk C5.0 hanya membutuhkan kurang dari 200 MB.
Perbedaan utama antara C4.5 dan C5.0 adalah boosting dan winnowing.
Boosting adalah teknik untuk menghasilkan dan menggabungkan beberapa
pengklasifikasian untuk meningkatkan akurasi prediksi. Winnowing adalah
langkah seleksi fitur yang dilakukan sebelum pemodelan (Rulequest 2012).
Single Nucleotida Polymorphism (SNP)
Asam Deoksiribonukleat (DNA) memiliki tiga komponen utama yaitu
gugus fosfat, gula deoksiribosa dan basa nitrogen. Basa nitrogen terdiri atas
Adenina (A), Timina (T), Sitosina (C) dan Guanina (G). DNA membentuk gen,
sedangkan gen-gen terangkai dalam satu kromosom. Kromoson terdiri dari DNA
yang terangkai secara bersambung membentuk spiral dan berasosiasi dengan
protein histon dan non histon (Nusantari 2014).
SNP adalah variasi urutan DNA yang terjadi dalam suatu genom berbeda
antara anggota suatu spesies biologis atau kromosom. SNP merupakan marka
molekuler yang sangat populer untuk diteliti karena mampu memberikan informasi
keragaman DNA (Hasibuan 2014).
Next-Generation Sequence (NGS)
Next-Generation Sequencing (NGS) merupakan istilah yang digunakan
untuk menyebutkan perkembangan metode sequencing (pengurutan) DNA setelah
metode yang diperkenalkan oleh Sanger dan Maxam-Gilbert pada tahun 1977
(Kosasih 2012). Metode sanger dinilai memiliki beberapa kekurangan dalam hal
efektifitas dan jumlah basa yang berhasil diurutkan. Kekurangan tersebut dapat
diminimalkan dengan menggunakan teknologi Next-Generatin Sequencing (NGS)
yang dapat mengurutkan genom dan menghasilkan sekuen dalam jumlah yang
cukup banyak, waktu yang lebih singkat dan biaya yang relatif murah (Metzker
2010).
4
METODE
Data
Data yang digunakan merupakan data fitur SNP hasil penelitian oleh
Hasibuan et al. (2014) dan Istiadi et al. (2014) yang dibangkitkan dari data whole-
genome resequencing aksesi kedelai budidaya oleh Lam et al. (2010). Lampiran 1
merupakan data fitur SNP.
Tabel 1 Kandidat SNP
Kandidat SNP SNP Negatif SNP Positif Total SNP
Gm01 2 216 578 138 368 2 354 946
Gm02 2 053 313 118 931 2 172 244
Gm03 1 697 287 167 842 1 865 129
Gm04 1 984 997 138 537 2 123 534
Gm05 1 665 594 98 072 1 763 666
Gm06 1 894 290 156 612 2 050 902
Gm07 1 723 621 125 666 1 849 287
Gm08 1 838 578 120 657 1 959 235
Gm09 1 804 235 141 666 1 945 901
Gm10 2 019 999 127 063 2 147 062
Gm11 1 566 161 87 508 1 653 669
Gm12 1 572 862 99 986 1 672 848
Gm13 1 634 925 158 201 1 792 526
Gm14 1 964 990 12 135 1 977 125
Gm15 1 864 576 205 997 2 070 573
Gm16 1 369 758 154 817 1 524 575
Gm17 1 396 975 154 817 1 551 792
Gm18 2 377 348 233 097 2 610 445
Gm19 1 903 739 148 314 2 052 053
Gm20 1 857 111 143 595 2 000 706
Genom kedelai memiliki 20 kromosom yang diberi label Gm01 (Glycine
max, kromosom 01) sampai Gm20 (Glycine max, kromosom 20). Data genom
kedelai yang digunakan yaitu dua data kromosom yang terkecil dan dua data
kromosom yang terbesar untuk mengetahui apakah fitur yang dihasilkan akan sama
atau berbeda. Adapun dua data kromosom terkecil yaitu kromosom 11 (Gm11) dan
kromosom 16 (Gm16) sedangkan dua kromosom terbesar yaitu kromosom 18
(Gm18) dan kromosom 01 (Gm01). Kromosom yang digunakan yaitu genom
dengan kromosom 01 (Gm01), kromosom 11 (Gm11) kromosom 16 (Gm16), dan
kromosom 18 (Gm18). Data kromosom 01 (Gm01) memiliki kandidat SNP
sebanyak 2 354 946, kromosom 11 (Gm11) memiliki kandidat SNP sebanyak 1 653
669, kromosom 16 (Gm16) memiliki kandidat SNP sebanyak 1 048 575 dan
kromosom 18 (Gm18) memiliki kandidat SNP sebanyak 2 610 445. Data tersebut
merupakan data SNP yang dipresentasikan dalam 25 variabel yang terdiri atas 24
fitur sebagai variabel bebas dan 1 sebagai variabel terikat. Variabel terikat
menunjukkan kelas SNP yaitu termasuk SNP positif (true) atau SNP negatif (false).
Tabel 1 merupakan seluruh kandidat SNP negatif, SNP positif dan total SNP.
5
Tahapan Penelitian
Prosedur yang dilakukan pada penelitian ini terdiri atas lima tahap yaitu
pembagian data, pemodelan klasifikasi SNP menggunakan algoritme C5.0,
pengujian klasifikasi SNP, evaluasi model klasifikasi dan analisis. Gambar 1
menunjukkan tahapan penelitian yang dilakukan.
Gambar 1 Tahapan penelitian
Pembagian Data
Data dibagi menjadi dua bagian yaitu data latih dan data uji. Data yang
digunakan yaitu data Gm01, Gm11, Gm16 dan Gm18. Pada model 1 data Gm11
digunakan sebagai data latih dan Gm16 sebagai data uji. Sedangkan, pada model 2
data Gm18 digunakan sebagai data latih dan Gm01 sebagai data uji.
Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0
Pemodelan dilakukan dengan membuat pohon keputusan menggunakan
algoritme C5.0 terhadap data latih Gm11 dan Gm18. Model klasifikasi yang
dibentuk oleh pohon keputusan algoritme C5.0 ini berbasis aturan yang terdiri
dari kondisi if-then dan direpresentasikan kedalam bentuk pohon keputusan.
Pohon keputusan merupakan suatu diagram yang mirip dengan struktur
flowchart, dimana masing-masing simpul merupakan atribut, masing-masing
cabang menunjukan nilai dari atribut dan masing-masing simpul daun
menunjukan label kelas. Algoritme C5.0 melakukan pemilihan atribut yang akan
diproses menggunakan information gain paling besar. Atribut yang memiliki
information gain terbesar dipilih sebagai parent dan nilai besar lainnya
6
digunakan untuk node selanjutnya. Persamaan entropy dan information gain yang
digunakan pada algoritme C5.0 seperti pada Persamaan 1 (Han et al. 2012).
Info(D)= - ∑ PiLog2(Pi)
m
i=1
(1)
Info (D) adalah nilai entropy dari sampel data D, m adalah jumlah kelas
yang ada pada atribut, sedangkan Pi adalah peluang dari kelas i atau rasio dari
kelas. Nilai entropy yang dihasilkan untuk mengklasifikasikan tuple dari D
berdasarkan partisi oleh A menggunakan formula seperti pada Persamaan 2 (Han
et al. 2012).
InfoA(D)= ∑|Dj|
D × Info(Dj)
v
j=1
(2)
Partisi tuple di D pada beberapa atribut A memiliki nilai v yang berbeda {a1,
a2, …, av} dari data latih. Atribut A digunakan untuk memisahkan D ke dalam v
partisi atau sub himpunan {D1, D2, …, Dv}. |Dj|
|D| merupakan bobot partisi ke-j.
Information gain yang diperoleh pada atribut A menyatakan bahwa ada beberapa
banyak cabang yang akan diperoleh pada A. Atribut A dengan information gain
tertinggi dipilih sebagai atribut pada node. Nilai gain dapat dihitung dengan
formula seperti pada Persamaan 3 (Han et al. 2012).
Gain (A) = Info (D) – InfoA (D) (3)
Pembentukan model klasifikasi tersebut dilakukan menggunakan
package yang tersedia pada perangkat lunak R yaitu “C50”. Klasifikasi
menggunakan data latih untuk mendapatkan model klasifikasi.
Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0
Pengujiann dilakukan terhadap model klasifikasi yang diperoleh. Pengujian
model menggunakan data uji sebagai data masukan. Pada proses pengujian kelas
pada data uji tersebut, kelas yang diprediksi dibandingkan dengan data aktualnya.
Prediksi kelas dilakukan dengan bantuan perangkat lunak R menggunakan fungsi
Predict pada package C50.
Pengujian model diukur untuk melihat seberapa baik model yang
dibangkitkan dengan menggunakan confusion matrix. Confusion matrix
mengandung nilai informasi tentang hasil aktual dan prediksi dari proses klasifikasi
yang dilakukan oleh sistem (Han et al. 2012). Hasil klasifikasi dikelompokkan
menjadi true positive (TP), false positive (FP), False Negative (FN) dan True
Negative (TN). TP dan TN menunjukkan banyaknya data kelas positif dan kelas
negatif yang diklasifikasikan secara benar ke dalam kelas positif dan negatif secara
berurutan. FP dan FN menujukkan banyaknya data kelas negatif dan kelas positif
yang diklasifikasikan ke dalam kelas yang sebaliknya secara berurutan (Sokolova
dan Lapalme 2009). Pengujian hasil klasifikasi dapat dihitung dari confusion matrix
adalah sensitivity, precision dan f-measure. Empat hasil pengelompokkan tersebut
tersusun dalam confusion matrix pada Tabel 2.
7
Tabel 2 Confusion matrix
Prediksi
Aktual Positive Negative
Positive True Positive (TP) False Negative (FN)
Negative False Positive (FP) True Negative (TN)
Berdasarkan klasifikasi terhadap confusion matrix, dapat dihitung nilai
akurasi yang merupakan perbandingan dari SNP yang diklasifikasikan secara benar.
Cara menghitung akurasi dapat dihitung seperti pada Persamaan 4 (Han et al. 2012).
Akurasi = TP + TN
TP + FP + FN + TN
(4)
Selain dari pengukuran akurasi, evaluasi metrik juga dilakukan terhadap
sensitivity dan precision. Sensitivity atau recall rate adalah perbandingan jumlah
kelas positif yang diklasifikasikan benar dengan jumlah seluruh kelas positif.
Sedangkan, precision adalah perbandingan jumlah kelas positif yang
diklasifikasikan benar dengan jumlah seluruh data yang diklasifikasikan sebagai
positif. Perhitungan sensitivity dan precision dapat dihitung seperti pada Persamaan
5 dan 6 (Han et al. 2012).
Sensitivity = TP
TP + FN
(5)
Precision = TP
TP + FP
(6)
Selain itu, evaluasi juga dilakukan terhadap f-measure untuk menghitung
kemampuan model dalam memetakan kelas positif dan negatif yang benar dapat
dihitung seperti pada Persamaan 7 (Han et al. 2012).
F-measure = 2 × Presicion × Sensitivity
Precison + Sensitivity
(7)
Evaluasi
Evaluasi bertujuan untuk menentukan kinerja suatu model klasifikasi.
Evaluasi dilakukan menggunakan confusion matrix yang sudah dilakukan pada
proses sebelumnya. Evaluasi hasil klasifikasi dapat dihitung dengan sensitivity,
precision dan f-measure.
Analisis
Tahap analisis terdiri atas analisis peforma terhadap model klasifikasi dan
analisis fitur-fitur yang berperan dalam mengidentifikasi SNP. Analisis peforma
8
berdasarkan perhitungan proporsi positif yang diklasifikasikan secara benar atau
sensitivity, perbandingan jumlah kelas positif yang diklasifikasikan benar dengan
jumlah seluruh data yang diklasifikasikan sebagai positif atau precision dan
perhitungan kemampuan model dalam memetakan kelas positif dan tidak
mengelompokkan kelas negatif ke kelas positif atau f-measure. Selanjutnya, analisis
fitur berdasarkan fitur-fitur yang memiliki nilai kepentingan terbsesar dari fitur
yang lainnya.
Peralatan Penelitian
Penelitian ini menggunakan dua perangkat keras untuk data yang berbeda
yaitu:
1 Data Gm11 dan Gm16 menggunakan processor Intel core i3-5005U, RAM 4
GB dan Harddisk drive 1 TB
2 Data Gm01 dan Gm18 menggunakan processor Intel core i7-7700, RAM 8 GB
dan Harddisk drive 1 TB
Perangkat lunak yang digunakan dalam penelitian ini yaitu:
1 Sistem operasi Windows 10 (64-bit)
2 R versi 3.3.3 dengan package C50 untuk membuat model klasifikasi
3 Microsoft Word 2013 untuk membuat laporan
HASIL DAN PEMBAHASAN
Pembagian Data
Data Gm11 dan Gm16 merupakan data yang memiliki jumlah kandidat SNP
paling sedikit sehingga mampu dilakukan pengolahan data dengan peforma
komputasi dan memori yang cukup rendah. Sedangkan data Gm01 dan Gm18
merupakan data yang memiliki jumlah kandidat SNP paling banyak dan
membutuhkan peforma komputasi dan memori yang cukup besar dalam pengolahan
data tersebut.
Pemodelan Klasifikasi SNP Menggunakan Algoritme C5.0
Tahap pemodelan dilakukan dengan menggunakan perangkat lunak R dan
package C50 untuk pemodelan, dan Caret untuk mendapatkan confusion matrix,
precision, dan sensitivity. Tahap awal dimulai dengan menghitung information
gain, setiap information gain tersebut digunakan untuk menentukan node-node atau
sebagai parent.
Proses pemodelan dilakukan terhadap data latih Gm11 dan Gm18
menggunakan algoritme pohon keputusan C5.0. Algoritme tersebut menghasilkan
model klasifikasi berupa model pohon keputusan dan berbasis aturan. Model
berbasis pohon memiliki banyak aturan yang dapat disederhanakan dan dipangkas sehingga aturan yang diturunkan dapat berjumlah sedikit. Pada Tabel 3 Gm11
9
menghasilkan 395 jumlah pohon keputusan dan dipangkas menjadi 192 jumlah
aturan. Penggalan pohon keputusan Gm11 dilampirkan pada Lampiran 2 dan
penggalan aturan Gm11 dilampirkan pada Lampiran 3. Pada Tabel 3 Gm18
menghasilkan 3 902 jumlah pohon keputusan dan dipangkas menjadi 680 aturan.
Penggalan pohon keputusan Gm18 dilampirkan pada Lampiran 4 dan penggalan
aturan Gm18 dilampirkan pada Lampiran 5.
Tabel 3 Model berbasis pohon keputusan dan berbasis aturan
Data latih Jumlah pohon Jumlah aturan
Gm11 395 192
Gm18 3 902 680
Setiap model yang dihasilkan kemudian dilakukan pengujian dengan
mengklasifikasikan kelas data uji. Kelas yang diprediksi dihitung presentasenya
dari data yang sesuai kelas real data uji. Prediksi yang dilakukan menggunakan
fungsi Predict pada library C50. Perhitungan presentase tersebut dilakukan dengan
menggunakan metode confusion matrix. Confusion matrix diperoleh dengan
menggunakan fungsi ConfusionMatrix yang terdapat pada library Caret. Pada
model 1 diperoleh akurasi sebesar 0.92 sedangkan pada model 2 diperoleh akurasi
sebesar 0.95.
Pengujian Klasifikasi SNP Menggunakan Algoritme C5.0
Pengujian klasifikasi dilakukan dengan mengklasifikasikan data uji. Kelas
yang diprediksi dapat diklasifikasikan kedalam metrik confusion matrix. Pengujian
dapat dihitung dengan sensitivity, precision dan f-measure.
Tabel 4 Confusion matrix model 1
Aktual Prediksi
Positive Negative
Positive 90 666 (TP) 64 151 (FN)
Negative 44 155 (FP) 1 325 603 (TN)
Tabel 5 Confusion matrix model 2
Aktual Prediksi
Positive Negative
Positive 81 886 (TP) 56 482 (FN)
Negative 49 196 (FP) 2 167 382 (TN)
Tabel 4 dan 5 menunjukkan bahwa nilai True Negative memiliki jumlah
yang lebih banyak dibandingkan dengan nilai True Positive dan juga terhadap nilai
False Negative lebih banyak dibandingkan False Positive. Hal tersebut disebabkan
kandidat SNP negatif (True Negative) memiliki jumlah yang lebih banyak dibandingkan kandidat SNP yang sebenarnya (True Positive), seperti pada Tabel 1.
Tabel 6 merupakan hasil pengujian terbaik dari dua model klasifikasi yang
diuji. Model 1 dihasilkan nilai Sensitivity sebesar 0.58, Precision sebesar 0.67 dan
10
f-measure sebesar 0.62. Model 2 dihasilkan nilai Sensitivity sebesar 0.59, Precision
sebesar 0.62 dan f-measure sebesar 0.60.
Tabel 6 Hasil pengujian terbaik dua model klasifikasi
Model Sensitivity Precision f-measure
1 0.58 0.67 0.62
2 0.59 0.62 0.60
Evaluasi
Evaluasi hasil model klasifikasi dilihat dalam beberapa ukuran yaitu
sensitivity, precision dan f-measure. Hasil dari model 1 (Gm11) dan model 2 (Gm18)
ditunjukkan pada Tabel 6. Model terbaik akan dipilih berdasarkan kriteria tingginya
nilai f-measure. Pada model 1 diperoleh nilai f-measure yang lebih besar dibandingkan
model 2 yaitu sebesar 0.62. Hal tersebut menunjukan model 1 dapat membangun
model lebih baik dibandingkan model 2 berdasarkan f-measure.
Analisis
Analisis dibagi menjadi dua yaitu analisis peforma dilakukan dengan
membandingkan metode yang dilakukan peneliti lain. Analisis peforma dilakukan
berdasarkan nilai sensitivity, precision, dan f-measure.
Tabel 7 Perbandingan hasil model
Data Model Sensitivity Precision F-measure
Latih Uji
Gm11 Gm16 Algorime C5.0 0.58 0.67 0.62
SVM 0.94 0.41 0.57
Bagging CART 0.60 0.66 0.63
Gm 18 Gm01 Algoritme C5.0 0.59 0.62 0.60
Genetic
Programming 0.92 0.30 0.45
Bagging CART 0.47 0.56 0.51
Tabel 7 merupakan tabel perbandingan hasil model dengan metode yang
berbeda. Perbandingan hasil yang dilihat dari nilai f-measure pada data latih Gm11
dan data uji Gm16 menunjukkan bahwa metode Bagging CART dapat membangun
model lebih baik dibandingkan metode Algoritme C5.0 maupun metode SVM
seperti yang dilakukan oleh Hasibuan (2014). Namun, model SVM mampu
mendapatkan nilai sensitivity lebih besar yaitu 0.94 dibandingkan algoritme C5.0
dan Bagging CART. Hal ini menunjukan model yang dibangkitkan menggunakan
SVM lebih baik dalam mengidentifikasi kelas SNP positif. Adapun pengujian data
latih Gm18 dan data uji Gm01 menunjukkan bahwa metode Algoritme C5.0 dapat membangun model lebih baik dibandingkan metode Genetic Programming (GP)
11
yang dilakukan oleh Istiadi (2015) maupun metode Bagging CART yang dilakukan
oleh Hudachair (2017). Model Algoritme C5.0 mampu mendapatkan nilai f-measure
lebih besar yaitu 0.60 dibandingkan nilai f-measure dari model Genetic Programming
(GP) maupun bagging CART.
Tabel 8 Persentase fitur Gm11 dan Gm18
Nama Fitur Tingkat kepentingan
Fitur Gm11 (%)
Tingkat Kepentingan
Fitur Gm18 (%)
error prob 99.86 32.61
homopolymer left 93.15 90.58
max qual minor 92.60 89.47
mismatch alt 90.68 99.33
mean qual minor 89.66 87.37
area mismatch 89.59 88.90
homopolymer right 89.45 86.74
mismatch ref 78.30 79.89
dinuc right 77.56 52.19
total depth 70.02 62.95
rel dist 64.70 66.45
max qual minor 59.99 89.47
mean nearby qual 46.13 96.71
mean base qual 42.15 39.04
max qual major 32.68 39.04
dinuc left 22.23 68.57
tstv 14.54 74.32
freq minor 14.52 89.43
nuc diversity 10.50 81.63
flank right 8.98 71.47
freq major 8.77 16.14
flank left 8.36 75.87
allel balance - 71.85
mean qual major - 21.41
Tabel 8 merupakan tabel presentase fitur-fitur Gm11 dan Gm18 yang
berperan dalam pengklasifikasian. Pada Tabel 8 dilakukan analisis fitur yang
berperan dengan melihat jumlah kemunculan terbesar dalam bentuk persentase.
Pada data latih Gm11 dan data uji Gm16 dapat dilihat fitur yang lebih berperan
yaitu error prob dan homopolymer left. Sedangkan, pada data latih Gm18 dan data
uji Gm01 dapat dilihat fitur yang lebih berperan yaitu mismatch alt dan mean
nearby qual. Fitur-fitur yang memiliki nilai presentase tertinggi dianggap memiliki
kontribusi yang lebih besar dalam mengidentifikasi SNP dibandingkan fitur-fitur
yang lain yang tersedia.
12
SIMPULAN DAN SARAN
Simpulan
Klasifikasi SNP pada genom kedelai menggunakan algoritme C5.0 telah
berhasil diterapkan untuk membangun model klasifikasi SNP. Nilai f-measure yang
diperoleh pada model 1 (Gm11 dan Gm16) yaitu 0.58 dan pada model 2 (Gm18
dan 01) yaitu 0.58. Fitur yang paling berperan dalam mengidentifikasi SNP pada
model 1 (Gm11 dan Gm16) adalah error prob dan homopolymer left. Sedangan
fitur-fitur yang berperan pada model 2 (Gm01 dan Gm18) adalah mismatch alt dan
mean nearby qual.
Saran
Penelitian selanjutnya disarankan untuk melakukan metode bagging atau
boosting untuk meningkatkan akurasi prediksi dan melakukan sampling untuk
penyeimbangan data.
DAFTAR PUSTAKA
Boopathi NM. 2013. Marker-Assisted Selection. Springer. doi:10.1007/978-81322-
0958-4_8.
Gorunescu F. 2011. Data Mining Concepts, Model and Techniques. Berlin:
Springer.
Gupta P, Roy J, Prasad M. 2001. Single nucleotide polymorphism: A new paradigm
for molecular marker technology and DNA polymorphism detection with
emphasis on their use in plants. Current Science. 80(4):524-535.doi: pp. 524-
535.
Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques. 3rd ed.
Massachusetts (US): Morgan Kaufmann.
Hasibuan LS, Kusuma WA, Suwarno WB. 2014. Identification of Single
Nucleotide Polymorphism using Support Vector Machine on Imbalanced
Data. Di dalam: 2014 International Conference on Advanced Computer
Science and Information Systems. 2014 Oct 18-19; Jakarta, Indonesia. Jakarta
(ID): Universitas Indonesia. hlm 371-375.
Hudachair N. 2017. Analisis Cart dan Bagging Cart Pada Big Data dalam
Identifikasi Single Nucleotide Polymorhysm (SNP) [skripsi]. Bogor (ID):
Institut Pertanian Bogor.
Istiadi MA, Kusuma WA, Tasma IM. 2014. Application of Decision Tree Classifier
for Single Nucleotide Polymorphism Discovery from Next-Generation
Sequencing. Di dalam: 2014 International Conference on Advanced
Computer Science and Information Systems. 2014 Oct 18-19; Jakarta,
Indonesia. Jakarta (ID): Universitas Indonesia. hlm 335-339.
13
Istiadi MA. 2015. Identifikasi Single Nucleotide Polymorphism Pada Genom
Kedelai Menggunakan Metode Genetic Programming [tesis]. Bogor (ID):
Institut Pertanian Bogor.
Kosasih, A. 2012. Konstruksi dan Analisis Kualitas Pustaka Genom Kedelai
(Glycine max [L.] Merr.) untuk Sekuensing Genom Total [skripsi]. Bogor
(ID): Institut Pertanian Bogor, Bogor.
Lam HM, Xun X, Xin L, Wenbin C, Guohua Y, Fuk-Ling W, Man-Wah L,
Weiming H, Nan Q, Bo W, et al. 2010. Resequencing of 31 wild and
cultivated soybean genomes identifies patterns of genetic diversity and
selection. Nat Genet. 42(12):1053–9.
Mammadov J, Aggarwal R, Buyyarapu R, Kumpatla S. 2012. SNP Markers and
Their Impact on Plant Breeding. Int. J. Plant Genomics. 2012:1-11.
Metzker M.L. 2010. Sequencing Technologies - The Next Generation. Nature
Reviews Genetics, 11(1), 31-46. Di dalam: Istiadi MA. 2015. Identifikasi
Single Nucleotide Polymorphism Pada Genom Kedelai Menggunakan
Metode Genetic Programming [tesis]. Bogor (ID): Institut Pertanian Bogor.
Nusantari E. 2014. Jenis Miskonsepsi Genetika yang Ditemukan pada Buku Ajar di
Sekolah Menengah Atas.
Rulequest. 2012. Data mining tools see5 and C5.0. [Internet]. [diunduh 2017 Nov
12]. Tersedia pada: http//rulequest.com/see5-comparison.html.
Sokolova M, Lapalme G. 2009. A Systematic Analysis of Performance Measures
for Classification Tasks. Information Processing and Management. 45(4):427-
437.doi: 10.1016/j.ipm.2009.03.002.
14
Lampiran 1 Daftar fitur data penelitian
No Nomor
Fitur
Fitur Keterangan
1 1 ts tv Tipe polimorfisme (transition/tranversion)
2 2,3 max qual major
dan max qual
minor
Kualitas maksimal alel mayor dan minor
pada posisi kandidat SNP
3 4,5 max qual major
dan max qual
minor
Rata-rata kualitas alel mayor dan minor
4 6,7 freq major dan
freq minor
Banyak kemunculan alel mayor dan minor
dibagi total depth pada posisi kandidat SNP
5 8 Rel dist Jarak relative kandidat SNP ke ujung
fragmen terdekat dan dibagi dengan panjang
fragmen
6 9 mean base qual Rata-rata kualitas nukleotida pada posisi
kandidat SNP
7 10 total depth Banyaknya fragmen yang dijajarkan pada
posisi kandidat SNP
8 11 mean mapping
qual
Rata-rata kualitas penjajaran
9 12 error prob Peluang kandidat SNP adalah homozigot,
heterozigot dan error
10 13,14 dinuc left dan
dinuc right
Banyaknya perulangan dinukleotida pada
sebelah kiri dan kanan genom rujukan di
posisi sekitar kandidat SNP
11 15 area mismatch Rata-rata jumlah kandidat SNP pada setiap
fragmen
12 16,17 homopolymer
left dan
homopolymer
right
Banyaknya homopolimer di kiri dan kanan
posisi kandidat SNP pada genom rujukan
13 18 nuc diversity Deviasi nukleotid-nukleotida pada genom
rujukan pada daerah 10 bp kanan dan kiri
kandidat SNP
14 19,20 mismatch ref dan
mismatch alt
Jumlah polimorfisme nukleotida pada
fragmen yang memiliki kandidat SNP dan
jumlah polimorfisme nukleotida pada
fragmen yang sama terhadap genom rujukan
pada posisi kandidat SNP
15 21
allel balance
Perbandingan antara fragmen yang
mengandung polimorfisme nukleotida dan
total depth pada posisi kandidat SNP
16 22 mean nearby
qual
Rata-rata kualitas nukleotida yang mengapit
posisi kandidat SNP ke kandidat SNP
17 23,24 flank left dan
flank right
Jarak antara kandidat SNP ke kandidat SNP
terdekat lainnya pada posisi kiri dan kanan
19
RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 10 Septmber 1995 dari pasangan
Bapak Syarifudin dan Ibu Yayah Yasin. Penulis adalah putri pertama dari dua
saudara. Penulis lulus dari SMA Insan Kamil pada tahun 2013 dan pada tahun yang
sama penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur
beasiswa utusan daerah (BUD) diterima di Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam.
Selama mengikuti perkuliahan, penulis pernah menjadi panitia dalam
beberapa kegiatan sejak 2014 sampai 2016. Penulis melaksanakan praktik kerja
lapangan di SEAMEO BIOTROP, Bogor sebagai system developer.