bab ii kajian pustaka -...
TRANSCRIPT
6
BAB II
KAJIAN PUSTAKA
2.1 Citra
Suatu citra didefinisikan sebagai fungsi kontinu dari intensitas cahaya dalam
bidang 2 dimensi, dan dinyatakan dengan f(x,y), dimana nilai atau amplitudo dari f
menyatakan intensitas cahaya dari citra pada koordinat (x,y). Dan karena cahaya adalah
salah satu bentuk dari energi, maka nilai f(x,y) harus berada diantara nol sampai tak
terhingga. Dengan persamaan 0 < f(x,y) < ∞
Gambar 2.1 Dimensi citra
2.1.1 Dijitalisasi Citra
Supaya sebuah citra dapat diproses oleh komputer, maka perlu adanya
dijitalisasi. Dijitalisasi adalah proses representasi citra dari fungsi kontinu
menjadi nilai-nilai diskrit. Citra yang dihasilkan dari dijitalisasi disebut citra
dijital (digital image). Umumnya citra dijital berbentuk empat persegi panjang
7
dan dimensi ukurannya dinyatakan dengan panjang x lebar. Citra dijital yang
berukuran M (panjang) x N (lebar) biasanya dinyatakan dalam bentuk matriks
yang berukuran M baris dan N kolom, sebagai berikut :
Setiap elemen pada citra dijital (elemen matriks) disebut image elemet, picture
element, pixel atau pel.
2.1.2 Proses Dijitalisasi Citra
Proses dijitalisasi citra melalui dua tahap, yaitu :
1. Dijitalisasi spasial (x,y), disebut image sampling
2. Dijitalisasi intensitas f(x,y), disebut gray-level quantization
2.1.2.1 Image Sampling
Citra kontinu dibagi-bagi menjadi grid-grid berbentuk bujur
sangkar dan pada setiap grid mengandung jumlah pixel tertentu.
8
Gambar 2.2 Image Sampling
Dalam implementasi biasanya jumlah sampling diasumsikan
perpangkatan dari dua, sehingga dapat dituliskan :
N = 2n, dimana :
N = jumlah sampling pada suatu baris / kolom
n = bilangan bulat positif
Gambar 2.3 Perbedaan image sampling
2.1.2.2 Gray-level quantization
Proses kuantisasi adalah membagi skala keabuan / gray scale
(0,L) menjadi sejumlah level, dinotasikan dengan G dan nilainya berupa
bilangan bulat (integer), G merupakan hasil perpangkatan dari dua :
G = 2m, dimana :
G = derajat keabuan / gray scale
9
m = bilangan bulat positif
Tabel 2.1 Grayscale
Gambar 2.3 Perbedaan Gray-level quantization
Jumlah bit yang dibutuhkan untuk menyimpan citra dijital yang
disampling menjadi N x N pixels dan dikuantisasi menjadi G gray level
adalah :
b = N x N x m dalam satuan bit
2.1.3 Terminologi Citra Dijital
Terminologi yang terdapat dalam citra dijital sebagai berikut :
1. Kecerahan (Brightness)
Kecerahan adalah kata lain untuk intensitas cahaya. Kecerahan
pada sebuah titik (pixel) di dalam citra bukanlah intensitas riil,
tetapi sebenarnya adalah intensitas rata-rata dari suatu area yang
melingkupinya.
10
2. Kontras (Contrast)
Kontras menyatakan sebaran terang (lightness) dan gelap
(darkness) di dalam sebuah citra.
3. Kontur (Contour)
Kontur adalah keadaan yang ditimbulkan oleh perubahan
intensitas pada pixel - pixel bertetangga.
4. Warna (Colour)
Warna adalah persepsi yang dirasakan oleh sistem visual manusia
terhadap panjang gelombang cahaya yang dipantulkan oleh objek.
Setiap warna mempunyai panjang gelombang (λ) yang berbeda.
- Merah : panjang gelombang paling tinggi
- Ungu : panjang gelombang paling rendah
5. Bentuk (Shape)
Shape adalah properti intrinsik dari objek tiga dimensi, dengan
pengertian bahwa shape merupakan properti intrinsik utama
sistem visual manusia.
6. Tekstur (Texture)
Tekstur dicirikan sebagai distribusi spasial dari derajat keabuan di
dalam sekumpulan pixel-pixel yang bertetangga. Jadi tekstur tidak
dapat didefinisikan hanya untuk sebuah pixel.
11
2.2 Pengolahan Citra
Pengolahan citra merupakan proses pengolahan dan analisis citra yang banyak
melibatkan persepsi visual dan bertujuan untuk memperbaiki kualitas citra agar mudah
diinterpretasi oleh manusia atau mesin (komputer). Jadi, masukannya adalah citra dan
keluarannya adalah juga citra, namun citra keluaran mempunyai kualitas lebih baik
daripada citra masukan. Pada umumnya, citra yang diolah adalah dalam bentuk dijital
dan disebut sebagai pengolahan citra dijital.
Median filtering termasuk salah satu langkah untuk meningkatkan kualitas citra,
karena median filtering cocok digunakan untuk menghilangkan noise dari suatu citra.
Median filtering bekerja dengan mengevaluasi tingkat brightness dari suatu pixel dan
menentukan pixel mana yang tingkat brightness-nya adalah nilai median (nilai tengah)
dari semua pixel. Nilai median ditentukan dari menempatkan brightness pixel pada
urutan yang bertingkat dan memilih nilai tengah, sehingga angka yang didapat dari
brightness pixel yang ada menjadi kurang dari dan lebih dari nilai tengah yang didapat.
Median filtering merupakan salah satu jenis low-pass filter, dibandingkan dengan
neighborhood averaging, filter ini lebih tidak sensitif terhadap perbedaan intensitas yang
ekstrim. Median filtering menentukan median dari suatu kernel (misal 3x3), filtering
dengan metode ini merupakan filter statistical order yang paling terkenal dikarenakan
kinerja yang cukup memuaskan dalam mengatasi noise terutama noise salt dan pepper
dan juga efek blurring yang terjadi jauh lebih kecil jika dibandingkan dengan aritmatik
filter.
12
Gambar 2.4 Proses Median Filter
Proses edge detection merupakan salah satu bagian dari proses segmentasi yang
bertujuan untuk mengekstrak fitur objek yang diperlukan untuk keperluan analisa. Dasar
untuk melakukan edge detection adalah mencari titik-titik pixel dalam citra yang
memiliki perubahan luminasi yang besar, misalnya dari warna hitam menjadi putih, atau
sebaliknya untuk citra yang berformat grayscale.
Ada beberapa operator yang umumnya dapat digunakan untuk melakukan edge
detection, antara lain : robert, prewitt dan sobel.
13
Gambar 2.5 Edge Detection
2.3 Computer Vision
Computer vision adalah ilmu dan teknologi mesin yang melihat. Sebagai suatu
disiplin ilmu, computer vision berkaitan dengan teori di balik sistem buatan yang
mengekstrak informasi dari citra. Data citra dapat mengambil banyak bentuk, seperti
video terurut, dilihat dari beberapa kamera, atau multi-dimensi data dari scanner medis.
Sebagai teknologi disiplin, computer vision berusaha untuk menerapkan teori dan
sebagai model untuk pembangunan sistem computer vision. Contoh aplikasi computer
vision mencakup sistem antara lain :
• Pengendalian proses, misalnya : sebuah robot industri atau kendaraan otonom.
14
• Mendeteksi kejadian (Detecting events), misalnya : untuk pengawasan visual dan
image sequences.
• Mengorganisir informasi, misalnya : untuk pengindeksan database foto dan citra
urutan.
• Modeling objects or environments, misalnya : industri inspeksi, analisis citra
medis atau topografis model.
• Interaction, misalnya : sebagai input ke perangkat untuk interaksi manusia
komputer.
Computer vision berkaitan erat dengan studi tentang biological vision dan model
proses fisiologis di balik persepsi visual pada manusia dan hewan lainnya. Di sisi lain,
computer vision merupakan kajian dan menggambarkan proses yang dilaksanakan dalam
perangkat lunak dan perangkat keras di belakang sistem penglihatan
buatan. Interdisipliner pertukaran antara biological vision dan computer vision telah
terbukti bermanfaat bagi kedua bidang.
Dalam beberapa hal computer vision merupakan kebalikan dari computer
graphics. Sementara computer graphics menghasilkan data citra dari model 3D,
computer vision sering menghasilkan model 3D dari data citra. Ada juga kecenderungan
terhadap kombinasi dari dua displin ilmu tersebut (computer vision dan computer
graphics).
Sub-domain computer vision termasuk scene reconstruction, event
detection, video tracking, object recognition, learning, indexing, motion estimation,
and image restoration.
15
Hubungan antara computer vision dan berbagai bidang yang terkait :
Gambar 2.6 Bidang-bidang computer vision
Banyak kecerdasan buatan (artificial intelligence) berkaitan dengan perencanaan
otonom untuk sistem robotical untuk menavigasi melalui lingkungan. Informasi tentang
lingkungan hidup dapat disediakan oleh sistem computer vision. Bertindak sebagai
sensor dan visi tingkat tinggi yang menyediakan informasi tentang lingkungan dan
robot. Kecerdasan buatan dan computer vision dalam bidang yang lain adalah pattern
recognition dan teknik pembelajaran. Akibatnya, computer vision kadang-kadang dilihat
sebagai bagian dari bidang kecerdasan buatan atau bidang ilmu komputer secara umum.
Fisika adalah bidang lain yang terkait erat dengan computer vision. Sistem
computer vision mengandalkan sensor citra yang mendeteksi radiasi elektromagnetik
yang biasanya dalam bentuk cahaya infra-merah. Sensor dirancang menggunakan solid-
16
state physics. Proses yang menyebarkan cahaya dan permukaan memantul dijelaskan
menggunakan optik. Sensor citra canggih bahkan memerlukan mekanika kuantum untuk
memberikan pemahaman yang lengkap dari proses pembentukan citra. Selain itu,
berbagai masalah pengukuran di fisika dapat diatasi dengan menggunakan computer
vision, misalnya gerak dalam cairan.
Bidang ketiga yang memainkan peran penting adalah neurobiology, khususnya
studi tentang sistem biological vision. Selama berabad-abad terakhir, telah ada studi
yang ekstensif tentang mata, neuron, dan struktur otak yang ditujukan untuk pemrosesan
rangsangan visual pada manusia dan berbagai hewan. Hal ini menimbulkan pertanyaan
yang rumit, yaitu deskripsi tentang bagaimana sesungguhnya sistem computer vision
beroperasi dalam rangka untuk menyelesaikan tugas-tugas yang terkait visi
tertentu. Hasil ini telah menyebabkan komputer subfield dalam visi, di mana sistem
buatan dirancang untuk meniru perilaku pengolahan dan sistem biologi pada tingkat
kerumitan yang berbeda. Selain itu, beberapa metode pembelajaran berbasis komputer
yang dikembangkan dalam visi memiliki latar belakang dalam biologi.
Bidang lain yang terkait dengan computer vision adalah pemrosesan
sinyal. Banyak metode untuk memproses variabel satu-sinyal, biasanya waktu sinyal,
dapat diperpanjang dengan cara alami untuk pengolahan sinyal dua variabel atau multi-
variabel sinyal dalam visi komputer. Namun karena sifat spesifik citra, ada banyak
metode yang dikembangkan dalam computer vision yang tidak memiliki mitra dalam
pemrosesan sinyal satu-variabel. Sebuah karakter yang berbeda dari metode ini adalah
kenyataan bahwa mereka yang non-linear, bersama-sama dengan multi-dimensi dari
17
sinyal, mendefinisikan sebuah subfield dalam pemrosesan sinyal sebagai bagian dari
computer vision.
Contoh-contoh yang disebutkan di atas merupakan pandangan tentang computer
vision. Banyak topik penelitian terkait yang juga dapat dipelajari dari sudut pandang
matematika murni. Sebagai contoh, banyak metode dalam computer vision didasarkan
pada statistik, optimasi atau geometri. Akhirnya, suatu bagian penting dari lapangan
dikhususkan untuk aspek pelaksanaan computer vision. Bagaimana metode yang ada
dapat diwujudkan dalam berbagai kombinasi perangkat lunak dan perangkat keras, atau
bagaimana metode-metode ini dapat dimodifikasi untuk mendapatkan kecepatan
pemrosesan tanpa kehilangan terlalu banyak waktu .
Hal yang paling erat kaitannya dengan computer vision adalah pengolahan
citra, analisis citra dan visi mesin. Ada tumpang tindih yang signifikan dalam berbagai
teknik dan aplikasi ini. Ini berarti bahwa teknik-teknik dasar yang digunakan dan
dikembangkan dalam bidang ini kurang lebih sama,.yang dapat diartikan sebagai sesuatu
yang hanya memiliki satu bagian dengan nama yang berbeda. Di sisi lain, tampaknya
sangat diperlukan bagi kelompok-kelompok penelitian, jurnal ilmiah, konferensi dan
perusahaan untuk menampilkan atau sebagai pemilik dari salah satu bidang tersebut.
Karakteristik di bawah ini relevan, tetapi tidak dianggap sebagai suatu hal yang diterima
secara universal:
• Pengolahan citra dan analisis citra cenderung berfokus pada citra 2D, misalnya
bagaimana mentransformasikan satu citra yang lain, misalnya dengan bijaksana
pixel operasi seperti kontras tambahan, operasi lokal seperti noise ekstraksi atau
penghapusan, atau transformasi geometris seperti memutar citra. Karakterisasi
18
ini menyiratkan bahwa pengolahan citra atau analisis asumsi tidak memerlukan
atau menghasilkan penafsiran tentang isi citra.
• Computer vision cenderung berfokus pada adegan 3D diproyeksikan ke satu atau
beberapa citra, misalnya bagaimana merekonstruksi struktur atau informasi lain
tentang adegan 3D dari satu atau beberapa citra. Computer vision sering
bergantung pada satu atau lebih asumsi kompleks tentang adegan yang
digambarkan dalam citra.
• Visi mesin cenderung berfokus pada aplikasi, terutama di bidang manufaktur,
misalnya robot otonom berbasis visi dan visi berbasis sistem inspeksi atau
pengukuran. Ini berarti bahwa teknologi sensor citra dan teori kontrol seringkali
terintegrasi dengan pengolahan data citra untuk mengendalikan robot dan yang
real-time processing, yang ditekankan dengan cara yang efisien, serta
implementasi di hardware dan software. Hal ini juga menyiratkan bahwa kondisi-
kondisi eksternal seperti pencahayaan dapat dan sering lebih terkontrol dalam
visi mesin daripada di computer vision pada umumnya, yang dapat
memungkinkan penggunaan algoritma yang berbeda.
• Ada juga bagian yang disebut pengambaran yang terutama berfokus pada proses
untuk menghasilkan citra, tapi kadang-kadang juga berhubungan dengan
pengolahan dan analisis citra. Sebagai contoh, medical imaging berisi banyak
pekerjaan yang dilakukan pada analisis data citra dalam aplikasi medis.
• Pengenalan pola (pattern recognition) merupakan bidang yang menggunakan
berbagai metode untuk mengekstrak informasi dari sinyal pada umumnya,
19
terutama didasarkan pada pendekatan statistik. Sebuah bagian penting dari
bidang ini dikhususkan untuk menerapkan metode ini untuk data citra.
2.4 Stereo Vision
Stereo vision adalah proses rekonstruksi model 3D melalui pengolahan citra 2D.
Melihat objek atau citra dari dua atau lebih posisi yang berbeda secara bersamaan
memungkinkan untuk membuat kesimpulan tentang struktur 3D, yaitu dengan
membandingkan titik-titik yang terkait pada citra. Sistem visual manusia dan beberapa
hewan lain menggunakan ini, dan sangat penting dalam upaya untuk mengembangkan
sistem visual komputer praktis.
Stereo vision menggunakan dua kamera untuk mengamati lingkungan,
menemukan titik yang sama di setiap citra, dan mengukur kedalaman pada titik itu
dengan triangulasi, yaitu dengan melihat garis - garis yang berpotongan dari setiap
kamera terhadap objek. Menemukan titik yang sama disetiap citra disebut korespondensi
yang merupakan tugas yang mendasar dari computer stereo vision.
Depth perception adalah proses ekstraksi kedalaman setiap pixel dalam citra
yaitu, menemukan dimensi ketiga dalam citra, dilambangkan dengan (z). Sebuah citra
3D memiliki banyak keunggulan dibandingkan dengan citra 2D. Citra 2D hanya
memberikan informasi yang terbatas tentang bentuk dan ukuran fisik suatu objek.
Sementara citra 3D mengungkapkan geometri dalam bentuk koordinat 3D, oleh karena
itu ukuran dan bentuk dari sebuah objek dapat dihitung dari koordinat 3D.
Agar mesin dapat berjalan dengan benar, maka perlu untuk mengetahui seberapa jauh
kemampuan mesin tersebut. Beberapa contoh dan aplikasi yang menggunakan 3D
20
informasi adalah: bin-picking, dimana robot diperlukan untuk mengidentifikasi posisi
dan orientasi dari objek 3D dan kemudian mengambilnya. Satu lagi adalah aplikasi
industri inspeksi untuk objek 3D. Masih banyak lagi aplikasi yang mengarah ke bidang
computer vision dan rekonstruksi 3D.
Skripsi ini adalah tentang stereo vision dan kedalaman citra. Kedalaman citra
hanya ditemukan dengan memperkirakan korespondensi dari setiap pixel dalam citra.
Dari pencarian titik korespondensi maka dapat menghitung perbedaan dari setiap pixel
yang akan membentuk peta disparity. Untuk kalibrasi kamera, dapat diketahui dari
panjang fokus, dan jarak antara kedua pusat kamera, yang disebut baseline. Setelah itu
baru kita dapat menghitung depth map. Kamera dapat berorientasi pada cara yang
berbeda, dengan orientasi paralel dan sejajar. Kamera paralel terletak pada kedua citra
dimasukkan ke dalam image plane. Bila kamera terletak secara sejajar, maka akan lebih
sulit untuk menganalisis, walaupun merupakan kasus yang umum bagi sebagian besar
kasus praktis.
Untuk memecahkan masalah setelah menemukan korespondensi objek, kita dapat
menentukan batas tertentu, untuk mengkalibrasi dua kamera. Ada dua jenis parameter
yang menghubungkan kamera dengan geometri vision system. Parameter tersebut
dikenal sebagai parameter eksternal (ektrinsik) dan internal (intrinsik). Yang
didefinisikan sebagai berikut:
Parameter eksternal adalah parameter yang menentukan lokasi dan orientasi
dari kerangka acuan kamera yang diketahui.
21
Parameter internal adalah parameter yang diperlukan untuk menghubungkan
pixel koordinat-koordinat dari titik citra yang sesuai dengan korespondensi
koordinat dalam kerangka acuan kamera.
Untuk orientasi sejajar, akan dilakukan cara untuk meminimalkan pencarian titik
korespondensi dari seluruh citra dengan hanya satu baris yang disebut epipolar line.
Masalah stereo vision system dapat dibagi menjadi dua bagian:
■ Korespondensi: yang merupakan proses mencari titik-titik yang sesuai setiap pixel
dalam dua citra.
■ Rekonstruksi: yang merupakan proses membangun model citra 3D.
Setelah korespondensi didapatkan, kemudian dapat menghitung disparity, yang
merupakan perbedaan posisi dari dua titik yang sesuai. Jika diketahui parameter internal
dari dua kamera, yaitu panjang fokus, dan jarak antara kamera, maka dapat membentuk
peta disparty, yang menunjukkan kedalaman setiap pixel dalam citra. Dari hasil tersebut,
dapat dibangun model citra 3D.
2.4.1 Korespondensi
Proses menentukan perbandingan antara titik dalam pasangan citra
disebut korespondensi. Dengan asumsi bahwa kita memiliki dua bentuk citra
yang diambil dari dua sudut pandang yang berbeda. Proses menemukan
korespondensi hanya untuk menentukan titik mana pada citra kiri berhubungan
dengan titik dalam citra kanan. Tetapi, salah satu kesulitan menemukan
korespondensi adalah tidak semua titik di sebelah kiri terlihat dengan jelas,
karena orientasi yang berbeda dari kamera. Jadi sistem stereo harus dapat
22
menentukan bagian-bagian citra yang tidak cocok. Jika ditemukan titik-titik yang
cocok antara citra kiri dan kanan maka disebut pasangan konjugasi atau
conjugated pair.
Cara menemukan pasangan konjugasi dari sebuah titik dalam dua citra,
adalah dengan memilih sebuah titik di salah satu citra dan menentukan baris
pencarian pada citra lain, yang disebut garis epipolar atau epipolar line. Jadi
batas pencarian selalu dapat dikurangi menjadi 1D, tergantung pada posisi relatif
dari kamera. Jika dua foto akan diambil dari dua kamera pararel, maka garis
pencarian baris merupakan garis yang sama pada kedua citra. Jika foto akan
diambil dari dua kamera sejajar, maka garis pencarian harus garis yang melewati
titik korespondensi dan titik lainnya yang disebut epipole.
Ketika garis pencarian telah ditemukan, maka dapat menghitung nilai
kesamaan untuk setiap titik pada garis dengan membandingkan suatu daerah di
sekitar titik pada citra pertama dan daerah sekitar setiap titik pada garis
pencarian. Metode ini untuk menemukan korepondensi yang disebut area-based
method. Ada beberapa faktor yang menyulitkan dalam masalah korespondensi:
1. Occlusions: dimana titik dalam satu citra tidak sesuai dengan titik-
titik dalam citra lain. Ini biasanya terjadi pada sebuah objek yang
dekat dengan kamera, yang akan mengaburkan bagian dari citra
pertama yang dapat dilihat dalam citra kedua dan sebaliknya atau
suatu objek yang menghalangi suatu daerah pada satu kamera dan
bukan yang lain
23
Gambar 2.7 Occlusions
2. Noise: adanya noise pada citra pertama, yang tidak berkorespondensi
pada citra yang lainnya.
3. Photometric distortions: membuat intensitas yang diproyeksikan pada
titik yang berbeda dalam dua jendela yaitu citra akan mencerminkan
intensitas yang berbeda dari berbagai sudut.
4. Projective distortion: membuat proyeksi bentuk-bentuk yang berbeda
di kedua citra.
Efek ini dapat dilihat dalam dua cara:
1. Permukaan berkurang, yang terlihat dari tanda-tanda menjadi
lebih kecil.
2. Permukaan condong, muncul dengan tanda-tanda yang
dikompresi dalam arah kecondongan
3. Proyektif distorsi memberikan otak manusia citraan umum
tentang bentuk-bentuk benda-benda dibidang visual. Otak
24
manusia dapat menggunakan informasi ini untuk membuat
dugaan-dugaan tentang bentuk benda-benda yang dilihatnya.
Sehingga dapat mengisi kekosongan yang ditinggalkan oleh
teropong disparity.
Gambar 2.8 Projective distortion
5. Non-Texture Areas: ada bagian dimana tidak ada intensitas variasi,
maka daerah ini akan memiliki jumlah yang sama dalam hal
kesamaan nilai untuk seluruh bagian. Beberapa poin yang sesuai
dapat diperoleh ketika tidak ada tekstur dalam suatu wilayah yang
lebih besar daripada ukuran jendela. Hal ini tidak mungkin bagi
kesamaan untuk membedakan antara jendela sebelum dan
sesudahnya.
2.4.2 Area-Based Method
Area-Based Method digunakan untuk mencari korespondensi antara dua
citra stereo. Dalam area-based method elemen yang cocok adalah jendela dari
citra yang diambil di sekitar titik. Ini adalah jumlah kesamaan antara jendela di
kedua citra, yang akan menentukan korespondensi dari sebuah titik.
25
Menemukan titik korespondensi yang sukses akan memungkinkan untuk
mengukur perbedaan antara dua citra, dan menyediakan apa yang dibutuhkan
untuk membangun peta disparity. Menemukan perbedaan dari dua perbandingan
yang sesuai akan dijelaskan dalam bagian berikutnya. Ada dua cara untuk
menemukan kesamaan nilai dari jendela di kedua citra, yaitu perbandingan dari
area tersebut dengan melakukan oleh cross-correlation atau SSD (sum of
squared difference).
c(x,y,d) merupakan persamaan untuk menentukan titik korespondensi,
dimana η = [- n, n] adalah tinggi jendela, ξ = [- m, m] adalah panjang jendela, x
dan y adalah koordinasi untuk titik di sebelah kiri citra (ImL) dan d adalah
perpindahan sedangkan ImR merupakan titik di sebelah kanan citra. Area-Based
Method akan digunakan untuk menemukan peta disparity dari sebuah citra
stereo.
2.4.3 Disparity
Disparity adalah perbedaan posisi (pergeseran) antara dua titik yang
sesuai. Perbedaan ditemukan dengan mencari indeks dari nilai maksimum
korelasi (SSD) dari semua perpindahan titik:
26
SSD biasanya lebih sering digunkan dari cross-correlation, karena tidak
terjadi bias dengan adanya daerah yang sangat kecil atau sangat besar nilai
intensitasnya. Disparity dari semua titik dalam bentuk citra disebut peta
disparity, yang dapat dipindahkan sebagai citra.
Setelah disparity telah ditemukan pada semua titik-titik dalam citra
sebelah kiri maka kita dapat menghitung depth. Rumus depth berasal dari
segitiga sama sisi.
Gambar 2.9 Menemukan depth dari disparity
Ambil dasar Triangle 1, dan membaginya dengan ketinggian yang sama
Triangle. Ini sama dengan dasar Triangle 2, dibagi dengan tinggi Triangle 2.
Depth pada titik P adalah sama dengan tinggi Triangle 1.
xl dan xr adalah koordinat dari pr dan pl sehubungan dengan titik-titik
utama cr dan cl. Jadi, dalam contoh Gambar 2.9 xr adalah negatif dan xl adalah
positif.
27
Jadi depth setiap titik yang dilihat, adalah panjang focal f kali baseline T
dibagi dengan disparity dari titik itu (d).
2.4.4 Konsep Pencarian Window
Beberapa metode yang disarankan untuk proses menemukan titik
korespondensi dan membangun peta kedalaman yang lebih akurat antara lain:
1. Single window method.
2. Multiple window method.
3. Adaptive search window method.
Metode yang berbeda ini, digunakan untuk memecahkan beberapa
masalah seperti occlusion, projective distortion dan beberapa titik yang sesuai
dikaitkan dengan menemukan korespondensi antara dua citra.
2.4.4.1 Single Window Method
Metode ini adalah salah satu yang paling sederhana. Dengan
mengasumsikan window yang cocok dengan ukuran tetap dan bentuk
korespondensi selama proses pencarian.
Pilihan ukuran dan bentuk jendela ditentukan oleh pengguna dari
awal. Setelah ditetapkan, maka ukuran window tidak akan berubah.
28
Untuk mengoptimalkan kecepatan metode yang digunakan, kita
menentukan panjang pada garis pencarian diantara nilai-nilai maksimum
dan minimum. Nilai maksimum dan nilai minimum akan tergantung pada
sifat dari citra itu sendiri.
Gambar 2.10 Menemukan garis paraller stereo image
Keuntungan dari single window method adalah metode yang
sangat sederhana dan lebih cepat daripada dua metode lainnya.
Kerugian dari single window method adalah tidak dapat
memecahkan masalah pada beberapa titik korespondensi, non-texture
areas, projective distortion dan occlusions. Jadi tidak terlalu akurat dalam
memperkirakan depth.
Sebuah solusi untuk masalah beberapa titik koresponensi dengan
menggunakan single window method adalah dengan memilih
menambahkan satu titik dimana pengujian dengan mencari satu titik
korespondensi yang gagal. Hal ini dapat meningkatkan hasil, tetapi tidak
akan menyelesaikan masalah secara keseluruhan. Solusi yang lebih baik
29
dengan menggunakan Multiple Window method atau Adaptive search
window method.
2.4.4.2 Multiple Window Method
Dalam mutiple window method digunakan sembilan window yang
berbeda, yang ditunjukkan pada figure 5 di bawah, yang diambil untuk
menemukan korelasi pada setiap pixel dan menghitung disparity dengan
kesalahan SSD terkecil sehingga disparity akan memilih window yang
tepat.
Gambar 2.11 Sembilan asimetrik korelasi window
Dalam multiple window method memiliki keuntungan yaitu
dengan beberapa window dapat memperkirakan disparity yang digunakan
untuk menghitung ketidakpastian sebagai "perkiraan varians dari ukuran
disparity yang diperoleh dalam beberapa window, dan titik-titik
occlusions dari varians tak terbatas." Ini akan meningkatkan hasil di
daerah yang teksturnya kurang baik..
Keuntungan dari multiple window method yang dapat
meningkatkan perkiraan disparity, dan memberikan depth lebih akurat.
multiple window method masih lebih cepat daripada adaptive search
30
window method. Multiple window method juga dapat memecahkan
masalah occlusions.
Kerugiannya dari multiple window method adalah tidak dapat
menangani daerah yang luas yang tidak berstruktur, dan masih tidak
mampu sepenuhnya menyelesaikan masalah projective distortion.
2.4.4.3 Adaptive Search Window
Untuk memecahkan masalah dalam menemukan titik
korespondensi, salah satunya dengan adaptive search window. Algoritma
mengasumsikan penggunaan berbagai bentuk dan ukuran window
pencarian, dan karenanya disebut adaptive search window.
Bentuk window merupakan hal yang sangat penting karena
properti citra seperti intensitas, disparity dan tekstur adalah piecewise
halus. Semua itu berbeda-beda kehalusannya pada kebanyakan titik,
tetapi berubah secara dramatis pada batas-batas objek. Lebih jauh, karena
bertindak sebagai filter pada citra, dan memperkenalkan bias sistemik ke
dalam proses pencocokan.
Dalam metode ini ukuran window dan bentuk yang iteratively
diubah berdasarkan variasi lokal intensitas dan pekiraan depth. Adaptive
search window memberikan hasil yang jauh lebih baik tapi masih mahal.
Ukuran window harus cukup besar untuk memuat variasi
intensitas yang memadai untuk pencocokan yang akurat dan dapat
31
diterima, tetapi juga harus cukup kecil untuk meminimalkan efek
projective distortion.
Window yang sangat kecil tidak dapat mencakup variasi intensitas
yang cukup sehingga memberikan perkiraan kecilnya disparity karena
sinyal (intensitas varias) untuk rasio noise akan rendah.
Di sisi lain window yang besar dapat juga memberikan hasil
buruk karena posisi korelasi maksimum atau minimum SSD tidak akan
cocok karena efek projective distortions di kiri dan kanan citra. Untuk
semua hal-hal di atas ukuran window harus dipilih adaptif sesuai dengan
variasi intensitas.
Gambar 2.12 Window expansion
Metode ini menyarankan untuk "memilih window yang tepat
dengan mengevaluasi variasi lokal intensitas dan disparity". Dengan
menerapkan model statistik untuk distribusi disparity dalam window
harus dibangun. Model ini akan membantu untuk membangun sebuah
jendela, yang mencari disparity, dengan perkiraan ketidakpastian
minimum untuk setiap pixel dalam citra. Ukuran serta bentuk (persegi)
dari jendela adalah adaptif.
32
Salah satu kesulitan yang berhubungan dengan Adaptive search
window adalah perkiraan dari disparity. Karena perbedaan variasi adalah
hasil akhir yang dicari dalam stereo vision, pada saat yang sama itu
adalah salah satu kriteria yang digunakan untuk memperkirakan disparity.
Gambar 2.13 Posisi setiap ukuran dan bentuk dari window yang
dipilih setelah diuji
Gambar 2.14 Window yang dipilih pada setiap posisi
33
2.5 Parallel Stereo Images
Dalam kamera paralel, dapat diasumsikan bahwa sumbu optik adalah berbaris
sejajar satu sama lain dan berdampingan atau lebih tepatnya, garis yang menghubungkan
pusat-pusat optik yang sejajar dengan sumbu x. Ini berarti bahwa citra sebuah titik akan
memiliki koordinat y yang sama untuk dua kamera. Garis yang menghubungkan pusat-
pusat lensa kamera disebut baseline.
Dalam kasus dua kamera paralel, menemukan depth jauh lebih sederhana
daripada ketika non-paralel karena setiap pasangan konjugasi harus terletak pada baris
yang sama di kedua citra, yaitu nilai y akan sama. Menemukan korespondensi tidak
perlu untuk memperbaiki citra, dan tidak mengubah orientasi. Proses hanya perlu
memilih untuk setiap titik dalam citra kiri, cari titik korespondensi pada baris yang sama.
Kriteria untuk menemukan korespondensi dapat diukur baik menggunakan cross
correlation atau sum of squared difference (SSD). Salah satu dari metode yang
diusulkan untuk menemukan korespondensi, yaitu Single Window, Multiple Windows
atau Adaptive Search Window dapat digunakan selama proses tersebut. Pasti setiap
metode akan memberikan hasil yang berbeda.
2.6 Non-Parallel Stereo Images
Kasus dua kamera sejajar secara paralel bukanlah kasus umum dalam stereo
vision, kamera paralel membatasi ruang daerah dimana benda-benda yang terlihat di
kedua citra. Hal ini lebih umum untuk menempatkan kamera sehingga sumbu yang
mengarahkan kamera ke dalam. Situasi ini disebut konvergensi kamera atau kamera
sejajar. Dalam hal ini titik korespondensi pada umumnya tidak akan berada pada
koordinat y yang sama.
34
Stereo geometry dengan dua citra yang diambil dari dua kamera non-paralel
disebut epipolar geometry. Dalam hal ini akan memperkenalkan geometric property
dikenal dalam computer vision sebagai epipolar constraint.
Ada dua cara untuk mengekstraksi struktur 3-D dari pasangan citra:
1. Classic method, yang dikenal sebagai calibrated route. Pertama-tama
perlu untuk mengkalibrasi kamera (atau sudut pandang), berkenaan
dengan sejumlah sistem koordinat, menghitung epipolar geometry
dengan mengeluarkan matriks yang penting dari sistem, dan dari
menghitung ini struktur Euclidean 3-D pada scene citra.
2. Uncalibrated system adalah sebuah kuantitas yang dikenal sebagai
fundamental matrix dihitung dari citra korespondensi dan kemudian
digunakan untuk menentukan proyektif struktur 3-D dari scene citra.
2.6.1 Epipolar Geometry
Mengingat sepasang stereo kamera setiap titik dalam ruang 3-D yang
didefinisikan sebuah plane π , melewati P dan pusat proyeksi dari kedua kamera.
Plane π disebut epipolar plane dan garis-garis lurus di mana π memotong image
plane disebut conjugated epipolar lines. Ini adalah citra dalam satu kamera dari
sebuah sinar melalui pusat optik dan citra titik di lain
kamera. Citra dalam satu kamera kamera lain pusat proyeksi dikenal sebagai
epipole. Dengan kata lain, epipole adalah titik perpotongan dari garis yang
menghubungkan optik pusat, yaitu baseline, dengan image plane.
35
Gambar 2.15 Area epipolar
Dengan pengecualian dari epipole, hanya satu epipolar line melewati titik
citra apapun. Semua epipolar line melewati satu kamera-kamera epipole.
Epipolar constraint yang menyatakan bahwa titik berkorespondensi harus
terletak pada conjugated epipolar lines. epipolar geometry adalah geometri
proyektif intrinsik antara dua pandangan yang independen dari struktur scene,
dan hanya tergantung pada parameter internal kamera dan posisi relatif.
Menentukan posisi lokasi titik objek tergantung pada citra yang cocok
dengan lokasi titik objek dalam satu citra ke lokasi titik objek yang sama dalam
citra lain. Pada awalnya mungkin terlihat bahwa korespondensi memerlukan
pencarian melalui seluruh citra, tapi epipolar constraint mengurangi pencarian
pada satu garis. Jadi titik dalam satu citra pl menghasilkan garis dalam pada titik
korespondensi pr. Pencarian korespondensi dengan demikian mengurangi suatu
wilayah pada garis, karena merupakan masalah 1-D.
36
Gambar 2.16 Epipolar line
Hasil di atas ditemukan, menggunakan 8-titik algoritma. Setelah titik
korespondensi dari kiri dan kanan citra, program menghitung Fundamental
Matrix FP. Kemudian menemukan parameter epipolar line, dari koordinat titik di
sebelah kiri citra dan Fundamental Matrix. Dengan menarik garis di sebelah
kanan seperti yang ditunjukkan citra. Karena benar-benar memilih 8 titik
korespondensi, maka dihitung Fundamental Matrix, hanyalah perkiraan, dan
dengan demikian mengalami kesalahan. Namun dibandingkan dengan
kesederhanaan dan kecepatan, 8-titik algoritma masih merupakan salah satu yang
algoritma terbaik yang digunakan untuk memperkirakan geometri epipolar.
2.6.2 Essential Matrix
Frame referensi kiri dan kanan kamera dihubungkan melalui parameter
eksternal. Menentukan transformasi dalam ruang 3-D dengan vektor translasi T =
(Or-Ol) dan sebuah matriks rotasi R. Diketahui sebuah titik P dalam ruang
hubungan antara Pr dan Pl dan oleh karena itu
37
Hubungan antara titik dalam ruang 3-D dan proyeksi digambarkan oleh
persamaan dari proyeksi perspektif persamaan:
Persamaan dari epipolar plane melewati P dapat ditulis sebagai perkalian
cross dari vektor Pl, T dan (Pl-T) seperti di bawah ini :
Menggunakan hasil dari rumus ke (5)
Menulis produk cross sebagai kekurangan pangkat matriks :
Maka (5) akan menjadi :
E matriks disebut Essential matrix.
38
Essential matrix langsung menghubungkan epipolar constraint dengan
parameter eksternal dari sistem kamera. Titik essential matrix dalam satu kamera
pada epipolar line di kamera kedua. Titik essential matrix dalam frame kamera
melalui epipolar constraint:
Epl sebagai garis proyektif dalam right plane lr yang melewati pr dan
epipole er.
Gambar 2.17 Epipolar Constrain
2.6.3 The Fundamental Matrix
Seluruh pembahasan yang digunakan dalam kamera koordinat referensi
Frame tetapi sebenarnya mengukur citra dari koordinat pixel.
39
Gambar 2.18 Hubungan camera frame
Oleh karena itu agar dapat menggunakan essential matrix, perlu
mengetahui transformasi dari koordinat kamera pixel, yaitu parameter internal.
Keterbatasan ini dapat dihailangkan dengan menggunakan fundamental matrix.
Fundamental matrix sering digunakan dalam rekonstruksi objek yang
diambil dengan dua kamera yang tidak dikalibrasi. Ini adalah pemetaan yang
sangat kuat antara citra stereo. Ini mencakup baik dengan parameter internal
maupun eksternal dari sistem dan memungkinkan untuk menjelaskan epipolar
geometry dari titik yang sesuai.
Dengan asumsi Ml merupakan matriks parameter internal kamera kiri.
Sebuah titik pada koordinat citra p^l ditulis dalam frame kamera sebagai:
Demikian pula untuk titik sebelah kanan :
40
Dengan mensubstitusikan persamaan ini pada persamaan (10) di atas,
maka didapatkan:
dimana :
F di sini adalah fundamental matrix. Seperti persamaan (15), untuk
fundamental matrix yang dimiliki
Persamaan (20) dapat dianggap sebagai persamaan dari projective
epipolar line yang sesuai dengan titik pl.
Perbedaan essential matrix dan fundamental matrix adalah bahwa
fundamental matrix didefinisikan dalam bentuk koordinat pixel dan essential
matrix didefinisikan dalam istilah koordinat kamera. Oleh karena itu jika dapat
memperkirakan fundamental matrix dari sejumlah titik pembanding dalam pixel
koordinat, maka dapat merekonstruksi epipolar geometry tanpa informasi sama
sekali tentang parameter internal atau eksternal.
2.6.4 Recovering Epipolar Geometry and Eight Point Algorithm
Banyak teknik yang ditemukan untuk epipolar pemulihan. Epipolar
geometry dapat diturunkan dari titik yang sesuai pada citra dengan menggunakan
8-points algorithm. 8-points algorithm sering digunakan untuk menghitung
fundamental matrix dari delapan pasang atau lebih titik yang koresponden.
41
Keuntungan dari 8-points algorithm adalah linear, maka dengan cepat
dan mudah diimplementasikan. Jika 8 titik yang berkorespondensi diketahui,
maka solusi dari serangkaian persamaan linear dapat digunakan.
Kerugian dari 8-points algorithm sangat rentan terhadap noise. Tetapi
translation dan scaling (normalisasi) sebelum merumuskan persamaan linier
meningkatkan hasil. Transformasi tidak meningkatkan kompleksitas dari
algoritma.
Mengasumsikan bahwa n titik korespondensi telah dibentuk antara kiri
dan kanan citra. Setiap korepondensi menyediakan persamaan linier homogen
dalam bentuk:
Ada sedikitnya 8 korespondensi (n³8), sebuah sistem linear homogenya
terbentuk. Jika pl = (x, y, 1) dan pr = (x ', y', 1) adalah dua titik yang sesuai di kiri
dan kanan citra, dengan koordinasi yang homogen. Dari epipolar constraint,
persamaan (18), untuk setiap titik i memiliki:
Dimana f1 melalui F9 adalah unsur fundamental matrix. Memperluas
(21) untuk setiap salah satu titik maka akan memiliki 8 persamaan dalam bentuk:
42
Dapat disusun kembali sebagai AF = 0, di mana A adalah (n x 9)
pengukuran persamaan matriks, dan F adalah fundamental matrix ditunjukkan
dengan 9-vektor.
Untuk 8-points algorithm, memiliki (n = 8). Ini merupakan masalah
aljabar linear standar karena jika sistem bersifat homogen, terdapat solusi unik
hingga faktor skala yang tidak dikenal. Maka solusinya adalah eigenvector
dengan minimum eigenvalue dari ATA. Jika kita memperluas A menggunakan
Singular Value Decomposition (SVD), dengan metode ini maka dapat menulis A
sebagai:
Solusi sistem SVD adalah kolom V terkait dengan setidaknya nilai tunggal A.
Jika A adalah matrik n x n, maka vektor tak nol x di dalam Rn dinamakan
eigenvector dari A jika Ax adalah kelipatan skalar dari x, yaitu Ax = λx
Untuk suatu skalar λ disebut eigenvalue dari A dan x dikatakan
eigenvector yang bersesuaian dengan λ.
Untuk mencari eigenvalue matrik A yang berukuran n x n maka kita
menuliskannya kembali Ax = λx sebagai Ax = λIx
(λI – A)x = 0