bab ii tinjauan pustaka_ g11wwi
TRANSCRIPT
1
PENDAHULUAN
Latar Belakang
Indonesia merupakan negara tropis yang
memiliki + 30.000 spesies tumbuh-tumbuhan
([Depkes] 2007). Tumbuh-tumbuhan tersebut
banyak yang dibudidayakan sebagai tanaman
hias. Seiring dengan meningkatnya
pendapatan, kesejahteraan, serta daya beli
masyarakat, penikmat tanaman hias kini tidak
hanya para kolektor tanaman hias.
Masyarakat pada umumnya kini mempunyai
kegemaran baru yaitu memelihara tanaman
hias. Jumlah permintaan pasar yang tinggi,
membuat produksi tanaman hias meningkat
dari tahun 1997 hingga 2011 ([BPS] 2011).
Di samping jumlahnya yang terus meningkat,
produksi tanaman hias juga akan
menghasilkan spesies baru akibat
persilangan. Hasil persilangan ini dapat
menyulitkan proses identifikasi. Dibutuhkan
botanis atau ahli tanaman hias untuk
melakukan identifikasi. Namun, proses
identifikasi secara manual memiliki beberapa
kekurangan, seperti dibutuhkan waktu yang
cukup lama. Hal ini menyebabkan kebutuhan
identifikasi tanaman hias secara otomatis
menjadi sangat penting.
Identifikasi tanaman hias secara otomatis
ditentukan berdasarkan penciri citra. Penciri
citra yang biasanya dipakai dalam temu
kembali citra adalah warna, bentuk, dan
tekstur (Rodrigues dan Araujo 2004).
Ekstraksi ciri tekstur pada citra tumbuhan
hias menggunakan metode Local Binary
Pattern (LBP) telah dilakukan oleh Kulsum
(2010). LBP yang digunakan adalah Rotation
Invariant Uniform Patterns ),
Rotation Invariant Variance Measure
) dan LBP Variance ).
Ukuran sampling point yang dapat
menghasilkan akurasi terbaik pada penelitian
tersebut adalah delapan buah, sedangkan
ukuran radiusnya adalah dua piksel.
Klasifikasi merupakan proses untuk
menentukan kelas hasil identifikasi citra.
Teknik klasifikasi sangat berpengaruh
terhadap hasil identifikasi. Citra hasil
ekstraksi akan dikelompokkan sesuai
kemiripan atau jaraknya dengan
menggunakan teknik klasifikasi tertentu.
Nurafifah (2010) telah menggunakan teknik
klasifikasi Probabilistic Neural Network
(PNN) untuk identifikasi daun dengan
penggabungan morfologi, tekstur, dan
bentuk. Teknik PNN dengan penggabungan
fitur ini menghasilkan akurasi sebesar 83.3%.
Penelitian tentang klasifikasi citra tanaman
hias menggunakan PNN telah dilakukan oleh
Kulsum (2010).
Telah ditunjukkan pada sejumlah
penelitian sebelumnya bahwa
mengombinasikan classifier yang berbeda
pada dokumen dapat meningkatkan akurasi
klasifikasi (Larkey 1996 dan Giacinto 1997).
Teknik klasifikasi menggunakan
penggabungan K- Nearest Neighbour (KNN)
dan Naïve Bayes (NB) telah dikembangkan
untuk mengklasifikasikan dokumen
berbahasa Inggris dan menghasilkan tingkat
keakuratan 70% (Li dan Jain 1998).
Pada penelitian ini dilakukan
perbandingan teknik klasifikasi PNN, KNN,
NB, serta penggabungan teknik klasifikasi
KNN+NB.
Tujuan Penelitian
Tujuan penelitian ini adalah
membandingkan teknik klasifikasi KNN, NB,
KNN+NB, dan PNN untuk identifikasi citra
tanaman hias.
Ruang Lingkup Penelitian
Data citra yang digunakan pada penelitian
ini adalah citra tanaman hias yang berada di
Kebun Raya Bogor. Citra terdiri atas 30 jenis
tanaman hias. Tahap segmentasi tidak
dilakukan pada penelitian ini.
TINJAUAN PUSTAKA
Ekstraksi ciri
Ekstraksi ciri merupakan tahap mengubah
masukan ke dalam suatu bentuk baru
sehingga pengenalan pola akan lebih mudah
dilakukan (Bishop, 2006). Ciri merupakan
pendeksripsi suatu objek yang bebas
terhadap posisi, orientasi, dan ukuran. Ciri
tekstur merupakan pengulangan pola yang
ada pada suatu bagian citra (Acharya dan
Ray 2005).
Local Binary Pattern
Local Binary Pattern (LBP) telah
berhasil dikembangkan oleh Kulsum (2010)
untuk mendeskripsikan tekstur tumbuhan
hias dalam mode grayscale. LBP digunakan
untuk mencari pola-pola tekstur lokal pada
citra.
LBP pertama kali bekerja dengan delapan
ketetanggaan yang tersebar secara melingkar
2
dengan pusat piksel berada di tengah. Nilai
LBP dihasilkan dengan mengalikan nilai
piksel yang telah melalui tahap pemotongan
dengan pembobotan biner sesuai posisi
piksel ketetanggaan berada.
Kode-kode LBP selanjutnya
direpresentasikan melalui histogram.
Histogram menunjukkan frekuensi kejadian
berbagai nilai LBP.
Rota tion Invariant Uniform
Patterns )
Operator LBP mengalami perkembangan
dengan dimodelkannya operator
menggunakan berbagai ukuran sampling
points dan radius. Beragamnya operator ini
digunakan untuk membuat skala atau ukuran
lokal tekstur yang berbeda-beda. Selanjutnya
notasi (P, R) akan digunakan untuk piksel
ketetanggaan dengan P merupakan sampling
points yang melingkar dan R merupakan
radius. Gambar 1 memperlihatkan contoh
circular neighborhood dengan operator (8,2).
Gambar 1 Circular neighborhood (8,2).
Operator (8,2) memiliki kuantisasi sudut
45 derajat (jarak antar sampling points 45
derajat). Kuantisasi sudut 45 derajat
merupakan kuantisasi sudut secara kasar
(crude quantization) bila dibandingkan
dengan sampling points 16 dan 24 yang
masing-masing mempunyai kuantisasi sudut
22.5 dan 15 derajat. Kuantisasi sudut 45
derajat mampu mengambil nilai piksel-piksel
ketetanggaan melingkar yang berbeda-beda
(discriminant) sehingga diperoleh pola-pola
LBP yang juga berbeda-beda. Bervariasinya
pola-pola LBP menjadi penciri yang baik
dalam ekstraksi tekstur (Kulsum, 2010).
Kemudian dibuat suatu cara agar pola
LBP tidak sensitif terhadap perubahan rotasi
(rotation invariant). Contoh: LBP =
00001111 = 15 dapat direpresentasikan
dengan circular neighborhood pada Gambar
2.
Gambar 2 Rotation Invariant LBP.
Nilai dan pola-pola LBP pada Gambar 3
dapat berbeda-beda, tetapi memiliki struktur
rotasi yang sama. Setiap pola LBP akan
mempunyai pola yang berbeda jika dirotasi
searah jarum jam ataupun berlawanan arah
jarum jam (Pietikainen et al. 2006).
Pola-pola LBP tertentu memiliki
karakteristik utama dari suatu tekstur. Pola-
pola yang memiliki informasi penting ini
dinamakan “uniform patterns”. LBP
dikatakan uniform jika struktur melingkar
pola-pola binernya paling banyak terdiri atas
dua transisi bit dari 0 ke 1 atau sebaliknya.
Uniform patterns berfungsi untuk
mengidentifikasi noda (spot), flat area atau
dark spot, sudut, dan tepi. Hampir 90 persen
dari tekstur merupakan uniform patterns
(Mäenpää et al. 2002).
Spot Spot/flat Line end Edge Corner
Gambar 3 Tekstur uniform patterns.
Penggabungan antara uniform patterns
dengan rotation invariant dilambangkan
. Notasi ri menunjukkan rotation
invariant dan u2 untuk uniform patterns pada
sampling points P dan radius R.
merupakan ukuran ketidaksensitifan
(invariant) terhadap perubahan grayscale dan
merupakan ukuran yang digunakan untuk
pola spasial.
Jika pola yang diidentifikasi termasuk
uniform patterns, akan dihitung banyaknya
bit satu pada pola tersebut yang menentukan
letak bin uniform patterns berada. Jika P,
banyaknya sampling points sama dengan
delapan, nilai adalah nol sampai
dengan sembilan. Jika bukan uniform
patterns akan masuk ke dalam bin terakhir,
yaitu bin kesepuluah yang merupakan single
bin non uniform patterns (Mäenpää 2003).
Rota tion Invariant Variance
Measure (VAR)
VAR merupakan descriptor untuk
mengukur lokal kontras tekstur pada suatu
citra. tidak mendefinisikan lokal
kontras tekstur dalam perhitungannya. VAR
tidak sensitif terhadap perubahan grayscale.
VAR berhubungan dengan kondisi
pencahayaan suatu citra.
LBP Variance (LBPV)
LBPV descriptor secara sederhana
menggabungkan distribusi informasi local
spatial pattern dan local contrast. Variance
berhubungan dengan fitur tekstur. Biasanya,
3
frekuensi tekstur region yang tinggi akan
mempunyai variance yang lebih tinggi dan
variance-variance tersebut lebih
berkontribusi terhadap perbedaan tekstur
suatu citra (Zhang et al. 2009). Oleh karena
itu, variance dapat digunakan sebagai
bobot yang dapat beradaptasi untuk mengatur
kontribusi nilai LBP pada perhitungan
histogram.
Klasifikasi
Klasifikasi yaitu proses untuk
menemukan sekumpulan model atau fungsi
yang mendeskripsikan dan membedakan
kelas-kelas data dengan tujuan untuk
memprediksikan kelas dari objek yang belum
diketahui kelasnya (supervised learning)
dengan karakteristik tipe data yang bersifat
kategorik (Han dan Kamber 2001).
Proses klasifikasi dibagi menjadi dua fase,
yaitu pelatihan dan pengujian. Pada fase
pelatihan, sebagian data yang telah diketahui
kelas datanya (data pelatihan) digunakan
untuk membentuk model. Selanjutnya pada
fase pengujian, model yang sudah terbentuk
diuji dengan sebagian data lainnya untuk
mengetahui akurasi model tersebut. Jika
akurasinya mencukupi maka model tersebut
dapat dipakai untuk memprediksi kelas data
yang belum diketahui.
Naïve Bayes
Naïve Bayes merupakan metode
klasifikasi dengan cara menghitung peluang
sebuah dokumen d berada di kelas c. Kelas
terbaik pada klasifikasi Naïve Bayes adalah
kelas yang paling mirip dengan data yang
ingin diklasifikasikan atau yang mempunyai
nilai posteriori tertinggi atau maximum a
posteriori (MAP) (Manning 2008).
Peluang Bayes dapat digunakan untuk
menghitung peluang bersyarat, yaitu peluang
kejadian apabila suatu kejadian diketahui.
Metode ini dapat memprediksi kemungkinan
anggota suatu kelas berdasarkan sampel yang
berasal dari anggota kelas tersebut.
Klasifikasi Naïve Bayes termasuk dalam
model multinomial yang mengambil jumlah
penciri yang muncul pada sebuah citra. Pada
model ini sebuah citra terdiri dari atas
beberapa kejadian penciri. Berdasarkan
asumsi Bayes, kemungkinan setiap penciri
dalam setiap citra adalah bebas, tidak
terpengaruh dengan konteks penciri dan
posisi penciri dalam citra.
Berdasarkan teori Bayes, peluang citra
untuk masuk ke dalam kelas atau ditujukkan pada persamaan (1) :
|
(1)
dengan adalah peluang kemunculan
citra di kelas , peluang ini dipengaruhi
oleh penciri yang muncul pada citra d,
sehingga = , yaitu peluang
kemunculan penciri pada citra kelas c,
adalah peluang awal suatu citra masuk kelas
, dan adalah peluang awal kemunculan
citra .
Peluang awal kemunculan citra , yaitu
sama nilainya untuk seluruh kelas ,
sehingga dapat diabaikan. Ditunjukkan pada
persamaan (2) dan (3):
(2)
dengan,
dan
∑ (3)
merupakan banyaknya citra dalam kelas ,
adalah total citra, adalah banyaknya
penciri dalam citra latih dari kelas .
Kelas yang paling sesuai bagi citra
adalah kelas yang memiliki atau nilai
posterior yang paling tinggi.
K-Nearest Neighbor
K-tetangga terdekat atau K-nearest
neighbor (KNN) merupakan metode
klasifikasi yang memasukkan data ke dalam
mayoritas kelas dari k tetangga terdekatnya
dengan k adalah sebuah parameter (Manning
2008). Parameter k dalam KNN seringkali
dipilih berdasarkan pada pengalaman atau
pengetahuan tentang masalah klasifikasi.
Metode KNN bekerja dengan berdasarkan
pada jarak terdekat antara data d dengan data
lainnya untuk menentukan tetangga
terdekatnya. Setelah itu diambil mayoritas
kelas data yang merupakan tetangga terdekat
untuk menentukan kelas data d.
Pembobotan juga bisa dilakukan pada
KNN dari kesamaan cosine. Skor kelas
dihitung pada persamaan (4).
∑ (4)
dengan adalah sekumpulan dari k tetangga
terdekat dari data dan bernilai 1 jika
dan hanya jika data d terdapat di kelas c dan
4
bernilai 0 jika sebaliknya. Data akan
dimasukkan ke kelas yang mempunyai skor
tertinggi. Ilustrasi teknik klasifikasi KNN
ditunjukkan pada Gambar 4.
Gambar 4 Ilustrasi teknik klasifikasi KNN.
Pada Gambar 4, diilustrasikan teknik
klasifikasi KNN. Terdapat tiga kelas, yaitu
dan , serta yang merupakan
vektor yang belum diketahui kelasnya.
Kemudian dipilih lima tetangga terdekat (K =
5). Setelah dipilih lima tetangga terdekat,
dihitung kelas terbanyak pada tetangga
terdekat tersebut. Pada Gambar 4 dapat
dilihat terdapat satu tetangga terdekat
yang berada pada kelas dan empat lainnya
berada pada kelas Berdasarkan jumlah
kelas terbanyak pada tetangga terdekat, maka
berada pada kelas
Adaptive classifier combination
Adaptive classifier combination (ACC)
adalah metode klasifikasi yang
menggabungkan metode naïve bayes dengan
KNN. ACC memasukkan data d ke dalam
kelas ci, dengan kelas yang akan dimasukkan
diidentifikasikan oleh classifier dengan local
accuracy tertinggi dari semua kelas yang ada
(Li dan Jain 1998).
Untuk sebuah data tes d yang akan
diklasifikasikan, dicari tetangga dari d,
data training
menggunakan metode k-nearest neighbor.
Kemudian ditunjukkan hasil klasifikasi
untuk data d oleh n classifier sebagai
{ }. Setelah itu,
untuk setiap kelas , dihitung:
∑ ∑
(5)
dengan merupakan peluang xi
terdapat pada kelas
c j dan Wi merupakan
ukuran kesamaan kosinus antara xi dan d.
Kemudian data d dimasukkan ke kelas ck,
dengan persamaan (6). Ilustrasi teknik
klasifikasi KNN+NB ditunjukkan pada
Gambar 5.
(6)
Gambar 5 Ilustrasi teknik klasifikasi
KNN+NB.
Gambar 5 merupakan ilustrasi teknik
KNN+NB. Hasil K tetangga terdekat pada
klasifikasi KNN, selanjutnya dihitung
peluang terhadap masing-masing kelas yang
terdapat pada K tetangga terdekat. Kelas
akhir vektor uji ditentukan oleh hasil peluang
vektor uji terhadap setiap kelas yang
tertinggi.
Probabil i s t ic Neural Network
(PNN)
PNN dikembangkan oleh Donald Specht
pada tahun 1988. PNN merupakan jaringan
saraf tiruan yang menggunakan teorema
probabilitas klasik seperti pengklasifikasian
Bayes dan penduga kepekatan Parzen. Kernel
(fungsi pembobot) yang digunakan adalah
radial basis function (RBF). RBF adalah
fungsi yang berbentuk seperti bel yang
menskalakan variabel nonlinear (Wu et al.
2007). Salah satu tipe RBF adalah Gaussian.
Gaussian merupakan fungsi yang paling
umum digunakan, serta komputasinya
mudah.
Keuntungan utama menggunakan
arsitektur PNN adalah training data mudah
dan sangat cepat. Struktur jaringan PNN
ditunjukkan pada Gambar 6.
Struktur PNN ditunjukkan pada Gambar 6
yang terdiri atas empat lapisan yaitu :
1 Lapisan masukan merupakan objek
terdiri atas k nilai ciri yang akan
diklasifikasikan pada n kelas.
2 Lapisan pola (pattern layer), digunakan
satu node pola untuk setiap data pelatihan
5
yang digunakan. Setiap node merupakan
selisih antara vektor masukan yang akan
diklasifikasikan dengan vektor bobot ,
yaitu , kemudian dibagi
dengan bias tertentu σ dan selanjutnya
dimasukkan ke dalam fungsi radial basis,
yaitu . Dengan demikian,
persamaan yang digunakan pada lapisan pola
adalah
(7)
3 Lapisan penjumlahan (summation layer),
menerima masukan dari node lapisan pola
yang terkait dengan kelas yang ada.
Persamaan yang digunakan pada lapisan ini
adalah
(8)
dengan k merupakan dimensi vektor ciri, σ
merupakan bias dan t merupakan jumlah data
latih pada kelas tertentu.
4 Lapisan keluaran (output layer),
menghasilkan keputusan input masuk ke
dalam suatu kelas. Input akan masuk kelas
Y jika nilai pY(x) paling besar dibandingkan
kelas yang lainnya.
Gambar 6 Struktur PNN.
Confusion matrix
Confusion matrix merupakan sebuah
tabel yang terdiri atas banyaknya baris data
uji yang diprediksi benar dan tidak benar oleh
model klasifikasi, digunakan untuk
menentukan kinerja suatu model klasifikasi
(Tan et al. 2005). Tabel 1 merupakan tabel
confussion matrix.
Perhitungan akurasi dengan menggunakan
tabel confusion matrix adalah:
Akurasi =
(9)
Tabel 1 Confusion matrix
Assigned class
Class = 1 Class = 0
True
Class
Class = 1 F11 F10
Class = 0 F01 F00
F11 merupakan jumlah citra dari kelas 1
yang benar diklasifikasikan sebagai kelas 1.
F00 merupakan jumlah citra dari kelas 0 yang
benar diklasifikasikan sebagai kelas 0. F01
merupakan jumlah citra dari kelas 0 yang
salah diklasifikasikan sebagai kelas 1. F10
merupakan jumlah citra dari kelas 1 yang
salah diklasifikasikan sebagai kelas 0.
METODE PENELITIAN
Metode penelitian dapat dilihat pada
Gambar 7. Secara garis besar metode
penelitian terdiri atas pengumpulan citra
tanaman hias, praproses, ekstraksi ciri,
pembagian data latih dan data uji, klasifikasi
Naïve Bayes, KNN, penggabungan KNN dan
Naïve Bayes, PNN, dan terakhir pengujian.
Data Penelitian
Data penelitian merupakan kumpulan
citra tanaman hias yang berada di Kebun
Raya Bogor. Citra terdiri dari 30 jenis
tanaman hias. Citra ini diambil dengan
berbagai macam sudut yang berbeda.
Praproses
Sebelum masuk ke tahap ekstraksi ciri,
dilakukan praproses citra. Tahapan ini
dilakukan dengan mengubah mode warna
citra dari RGB (Red-Green-Blue) menjadi
mode grayscale. Tujuannya adalah mengubah
tiga layer matriks warna menjadi satu layer
matriks citra derajat keabuan (grayscale). Hal
ini diperlukan untuk mengolah citra
menggunakan fitur tekstur dengan LBP.