bab ii kajian pustaka -...

6

BAB II

KAJIAN PUSTAKA

2.1 Citra

Suatu citra didefinisikan sebagai fungsi kontinu dari intensitas cahaya dalam

bidang 2 dimensi, dan dinyatakan dengan f(x,y), dimana nilai atau amplitudo dari f

menyatakan intensitas cahaya dari citra pada koordinat (x,y). Dan karena cahaya adalah

salah satu bentuk dari energi, maka nilai f(x,y) harus berada diantara nol sampai tak

terhingga. Dengan persamaan 0 < f(x,y) < ∞

Gambar 2.1 Dimensi citra

2.1.1 Dijitalisasi Citra

Supaya sebuah citra dapat diproses oleh komputer, maka perlu adanya

dijitalisasi. Dijitalisasi adalah proses representasi citra dari fungsi kontinu

menjadi nilai-nilai diskrit. Citra yang dihasilkan dari dijitalisasi disebut citra

dijital (digital image). Umumnya citra dijital berbentuk empat persegi panjang

7

dan dimensi ukurannya dinyatakan dengan panjang x lebar. Citra dijital yang

berukuran M (panjang) x N (lebar) biasanya dinyatakan dalam bentuk matriks

yang berukuran M baris dan N kolom, sebagai berikut :

Setiap elemen pada citra dijital (elemen matriks) disebut image elemet, picture

element, pixel atau pel.

2.1.2 Proses Dijitalisasi Citra

Proses dijitalisasi citra melalui dua tahap, yaitu :

1. Dijitalisasi spasial (x,y), disebut image sampling

2. Dijitalisasi intensitas f(x,y), disebut gray-level quantization

2.1.2.1 Image Sampling

Citra kontinu dibagi-bagi menjadi grid-grid berbentuk bujur

sangkar dan pada setiap grid mengandung jumlah pixel tertentu.

8

Gambar 2.2 Image Sampling

Dalam implementasi biasanya jumlah sampling diasumsikan

perpangkatan dari dua, sehingga dapat dituliskan :

N = 2n, dimana :

N = jumlah sampling pada suatu baris / kolom

n = bilangan bulat positif

Gambar 2.3 Perbedaan image sampling

2.1.2.2 Gray-level quantization

Proses kuantisasi adalah membagi skala keabuan / gray scale

(0,L) menjadi sejumlah level, dinotasikan dengan G dan nilainya berupa

bilangan bulat (integer), G merupakan hasil perpangkatan dari dua :

G = 2m, dimana :

G = derajat keabuan / gray scale

9

m = bilangan bulat positif

Tabel 2.1 Grayscale

Gambar 2.3 Perbedaan Gray-level quantization

Jumlah bit yang dibutuhkan untuk menyimpan citra dijital yang

disampling menjadi N x N pixels dan dikuantisasi menjadi G gray level

adalah :

b = N x N x m dalam satuan bit

2.1.3 Terminologi Citra Dijital

Terminologi yang terdapat dalam citra dijital sebagai berikut :

1. Kecerahan (Brightness)

Kecerahan adalah kata lain untuk intensitas cahaya. Kecerahan

pada sebuah titik (pixel) di dalam citra bukanlah intensitas riil,

tetapi sebenarnya adalah intensitas rata-rata dari suatu area yang

melingkupinya.

10

2. Kontras (Contrast)

Kontras menyatakan sebaran terang (lightness) dan gelap

(darkness) di dalam sebuah citra.

3. Kontur (Contour)

Kontur adalah keadaan yang ditimbulkan oleh perubahan

intensitas pada pixel - pixel bertetangga.

4. Warna (Colour)

Warna adalah persepsi yang dirasakan oleh sistem visual manusia

terhadap panjang gelombang cahaya yang dipantulkan oleh objek.

Setiap warna mempunyai panjang gelombang (λ) yang berbeda.

- Merah : panjang gelombang paling tinggi

- Ungu : panjang gelombang paling rendah

5. Bentuk (Shape)

Shape adalah properti intrinsik dari objek tiga dimensi, dengan

pengertian bahwa shape merupakan properti intrinsik utama

sistem visual manusia.

6. Tekstur (Texture)

Tekstur dicirikan sebagai distribusi spasial dari derajat keabuan di

dalam sekumpulan pixel-pixel yang bertetangga. Jadi tekstur tidak

dapat didefinisikan hanya untuk sebuah pixel.

11

2.2 Pengolahan Citra

Pengolahan citra merupakan proses pengolahan dan analisis citra yang banyak

melibatkan persepsi visual dan bertujuan untuk memperbaiki kualitas citra agar mudah

diinterpretasi oleh manusia atau mesin (komputer). Jadi, masukannya adalah citra dan

keluarannya adalah juga citra, namun citra keluaran mempunyai kualitas lebih baik

daripada citra masukan. Pada umumnya, citra yang diolah adalah dalam bentuk dijital

dan disebut sebagai pengolahan citra dijital.

Median filtering termasuk salah satu langkah untuk meningkatkan kualitas citra,

karena median filtering cocok digunakan untuk menghilangkan noise dari suatu citra.

Median filtering bekerja dengan mengevaluasi tingkat brightness dari suatu pixel dan

menentukan pixel mana yang tingkat brightness-nya adalah nilai median (nilai tengah)

dari semua pixel. Nilai median ditentukan dari menempatkan brightness pixel pada

urutan yang bertingkat dan memilih nilai tengah, sehingga angka yang didapat dari

brightness pixel yang ada menjadi kurang dari dan lebih dari nilai tengah yang didapat.

Median filtering merupakan salah satu jenis low-pass filter, dibandingkan dengan

neighborhood averaging, filter ini lebih tidak sensitif terhadap perbedaan intensitas yang

ekstrim. Median filtering menentukan median dari suatu kernel (misal 3x3), filtering

dengan metode ini merupakan filter statistical order yang paling terkenal dikarenakan

kinerja yang cukup memuaskan dalam mengatasi noise terutama noise salt dan pepper

dan juga efek blurring yang terjadi jauh lebih kecil jika dibandingkan dengan aritmatik

filter.

12

Gambar 2.4 Proses Median Filter

Proses edge detection merupakan salah satu bagian dari proses segmentasi yang

bertujuan untuk mengekstrak fitur objek yang diperlukan untuk keperluan analisa. Dasar

untuk melakukan edge detection adalah mencari titik-titik pixel dalam citra yang

memiliki perubahan luminasi yang besar, misalnya dari warna hitam menjadi putih, atau

sebaliknya untuk citra yang berformat grayscale.

Ada beberapa operator yang umumnya dapat digunakan untuk melakukan edge

detection, antara lain : robert, prewitt dan sobel.

13

Gambar 2.5 Edge Detection

2.3 Computer Vision

Computer vision adalah ilmu dan teknologi mesin yang melihat. Sebagai suatu

disiplin ilmu, computer vision berkaitan dengan teori di balik sistem buatan yang

mengekstrak informasi dari citra. Data citra dapat mengambil banyak bentuk, seperti

video terurut, dilihat dari beberapa kamera, atau multi-dimensi data dari scanner medis.

Sebagai teknologi disiplin, computer vision berusaha untuk menerapkan teori dan

sebagai model untuk pembangunan sistem computer vision. Contoh aplikasi computer

vision mencakup sistem antara lain :

• Pengendalian proses, misalnya : sebuah robot industri atau kendaraan otonom.

14

• Mendeteksi kejadian (Detecting events), misalnya : untuk pengawasan visual dan

image sequences.

• Mengorganisir informasi, misalnya : untuk pengindeksan database foto dan citra

urutan.

• Modeling objects or environments, misalnya : industri inspeksi, analisis citra

medis atau topografis model.

• Interaction, misalnya : sebagai input ke perangkat untuk interaksi manusia

komputer.

Computer vision berkaitan erat dengan studi tentang biological vision dan model

proses fisiologis di balik persepsi visual pada manusia dan hewan lainnya. Di sisi lain,

computer vision merupakan kajian dan menggambarkan proses yang dilaksanakan dalam

perangkat lunak dan perangkat keras di belakang sistem penglihatan

buatan. Interdisipliner pertukaran antara biological vision dan computer vision telah

terbukti bermanfaat bagi kedua bidang.

Dalam beberapa hal computer vision merupakan kebalikan dari computer

graphics. Sementara computer graphics menghasilkan data citra dari model 3D,

computer vision sering menghasilkan model 3D dari data citra. Ada juga kecenderungan

terhadap kombinasi dari dua displin ilmu tersebut (computer vision dan computer

graphics).

Sub-domain computer vision termasuk scene reconstruction, event

detection, video tracking, object recognition, learning, indexing, motion estimation,

and image restoration.

15

Hubungan antara computer vision dan berbagai bidang yang terkait :

Gambar 2.6 Bidang-bidang computer vision

Banyak kecerdasan buatan (artificial intelligence) berkaitan dengan perencanaan

otonom untuk sistem robotical untuk menavigasi melalui lingkungan. Informasi tentang

lingkungan hidup dapat disediakan oleh sistem computer vision. Bertindak sebagai

sensor dan visi tingkat tinggi yang menyediakan informasi tentang lingkungan dan

robot. Kecerdasan buatan dan computer vision dalam bidang yang lain adalah pattern

recognition dan teknik pembelajaran. Akibatnya, computer vision kadang-kadang dilihat

sebagai bagian dari bidang kecerdasan buatan atau bidang ilmu komputer secara umum.

Fisika adalah bidang lain yang terkait erat dengan computer vision. Sistem

computer vision mengandalkan sensor citra yang mendeteksi radiasi elektromagnetik

yang biasanya dalam bentuk cahaya infra-merah. Sensor dirancang menggunakan solid-

16

state physics. Proses yang menyebarkan cahaya dan permukaan memantul dijelaskan

menggunakan optik. Sensor citra canggih bahkan memerlukan mekanika kuantum untuk

memberikan pemahaman yang lengkap dari proses pembentukan citra. Selain itu,

berbagai masalah pengukuran di fisika dapat diatasi dengan menggunakan computer

vision, misalnya gerak dalam cairan.

Bidang ketiga yang memainkan peran penting adalah neurobiology, khususnya

studi tentang sistem biological vision. Selama berabad-abad terakhir, telah ada studi

yang ekstensif tentang mata, neuron, dan struktur otak yang ditujukan untuk pemrosesan

rangsangan visual pada manusia dan berbagai hewan. Hal ini menimbulkan pertanyaan

yang rumit, yaitu deskripsi tentang bagaimana sesungguhnya sistem computer vision

beroperasi dalam rangka untuk menyelesaikan tugas-tugas yang terkait visi

tertentu. Hasil ini telah menyebabkan komputer subfield dalam visi, di mana sistem

buatan dirancang untuk meniru perilaku pengolahan dan sistem biologi pada tingkat

kerumitan yang berbeda. Selain itu, beberapa metode pembelajaran berbasis komputer

yang dikembangkan dalam visi memiliki latar belakang dalam biologi.

Bidang lain yang terkait dengan computer vision adalah pemrosesan

sinyal. Banyak metode untuk memproses variabel satu-sinyal, biasanya waktu sinyal,

dapat diperpanjang dengan cara alami untuk pengolahan sinyal dua variabel atau multi-

variabel sinyal dalam visi komputer. Namun karena sifat spesifik citra, ada banyak

metode yang dikembangkan dalam computer vision yang tidak memiliki mitra dalam

pemrosesan sinyal satu-variabel. Sebuah karakter yang berbeda dari metode ini adalah

kenyataan bahwa mereka yang non-linear, bersama-sama dengan multi-dimensi dari

17

sinyal, mendefinisikan sebuah subfield dalam pemrosesan sinyal sebagai bagian dari

computer vision.

Contoh-contoh yang disebutkan di atas merupakan pandangan tentang computer

vision. Banyak topik penelitian terkait yang juga dapat dipelajari dari sudut pandang

matematika murni. Sebagai contoh, banyak metode dalam computer vision didasarkan

pada statistik, optimasi atau geometri. Akhirnya, suatu bagian penting dari lapangan

dikhususkan untuk aspek pelaksanaan computer vision. Bagaimana metode yang ada

dapat diwujudkan dalam berbagai kombinasi perangkat lunak dan perangkat keras, atau

bagaimana metode-metode ini dapat dimodifikasi untuk mendapatkan kecepatan

pemrosesan tanpa kehilangan terlalu banyak waktu .

Hal yang paling erat kaitannya dengan computer vision adalah pengolahan

citra, analisis citra dan visi mesin. Ada tumpang tindih yang signifikan dalam berbagai

teknik dan aplikasi ini. Ini berarti bahwa teknik-teknik dasar yang digunakan dan

dikembangkan dalam bidang ini kurang lebih sama,.yang dapat diartikan sebagai sesuatu

yang hanya memiliki satu bagian dengan nama yang berbeda. Di sisi lain, tampaknya

sangat diperlukan bagi kelompok-kelompok penelitian, jurnal ilmiah, konferensi dan

perusahaan untuk menampilkan atau sebagai pemilik dari salah satu bidang tersebut.

Karakteristik di bawah ini relevan, tetapi tidak dianggap sebagai suatu hal yang diterima

secara universal:

• Pengolahan citra dan analisis citra cenderung berfokus pada citra 2D, misalnya

bagaimana mentransformasikan satu citra yang lain, misalnya dengan bijaksana

pixel operasi seperti kontras tambahan, operasi lokal seperti noise ekstraksi atau

penghapusan, atau transformasi geometris seperti memutar citra. Karakterisasi

18

ini menyiratkan bahwa pengolahan citra atau analisis asumsi tidak memerlukan

atau menghasilkan penafsiran tentang isi citra.

• Computer vision cenderung berfokus pada adegan 3D diproyeksikan ke satu atau

beberapa citra, misalnya bagaimana merekonstruksi struktur atau informasi lain

tentang adegan 3D dari satu atau beberapa citra. Computer vision sering

bergantung pada satu atau lebih asumsi kompleks tentang adegan yang

digambarkan dalam citra.

• Visi mesin cenderung berfokus pada aplikasi, terutama di bidang manufaktur,

misalnya robot otonom berbasis visi dan visi berbasis sistem inspeksi atau

pengukuran. Ini berarti bahwa teknologi sensor citra dan teori kontrol seringkali

terintegrasi dengan pengolahan data citra untuk mengendalikan robot dan yang

real-time processing, yang ditekankan dengan cara yang efisien, serta

implementasi di hardware dan software. Hal ini juga menyiratkan bahwa kondisi-

kondisi eksternal seperti pencahayaan dapat dan sering lebih terkontrol dalam

visi mesin daripada di computer vision pada umumnya, yang dapat

memungkinkan penggunaan algoritma yang berbeda.

• Ada juga bagian yang disebut pengambaran yang terutama berfokus pada proses

untuk menghasilkan citra, tapi kadang-kadang juga berhubungan dengan

pengolahan dan analisis citra. Sebagai contoh, medical imaging berisi banyak

pekerjaan yang dilakukan pada analisis data citra dalam aplikasi medis.

• Pengenalan pola (pattern recognition) merupakan bidang yang menggunakan

berbagai metode untuk mengekstrak informasi dari sinyal pada umumnya,

19

terutama didasarkan pada pendekatan statistik. Sebuah bagian penting dari

bidang ini dikhususkan untuk menerapkan metode ini untuk data citra.

2.4 Stereo Vision

Stereo vision adalah proses rekonstruksi model 3D melalui pengolahan citra 2D.

Melihat objek atau citra dari dua atau lebih posisi yang berbeda secara bersamaan

memungkinkan untuk membuat kesimpulan tentang struktur 3D, yaitu dengan

membandingkan titik-titik yang terkait pada citra. Sistem visual manusia dan beberapa

hewan lain menggunakan ini, dan sangat penting dalam upaya untuk mengembangkan

sistem visual komputer praktis.

Stereo vision menggunakan dua kamera untuk mengamati lingkungan,

menemukan titik yang sama di setiap citra, dan mengukur kedalaman pada titik itu

dengan triangulasi, yaitu dengan melihat garis - garis yang berpotongan dari setiap

kamera terhadap objek. Menemukan titik yang sama disetiap citra disebut korespondensi

yang merupakan tugas yang mendasar dari computer stereo vision.

Depth perception adalah proses ekstraksi kedalaman setiap pixel dalam citra

yaitu, menemukan dimensi ketiga dalam citra, dilambangkan dengan (z). Sebuah citra

3D memiliki banyak keunggulan dibandingkan dengan citra 2D. Citra 2D hanya

memberikan informasi yang terbatas tentang bentuk dan ukuran fisik suatu objek.

Sementara citra 3D mengungkapkan geometri dalam bentuk koordinat 3D, oleh karena

itu ukuran dan bentuk dari sebuah objek dapat dihitung dari koordinat 3D.

Agar mesin dapat berjalan dengan benar, maka perlu untuk mengetahui seberapa jauh

kemampuan mesin tersebut. Beberapa contoh dan aplikasi yang menggunakan 3D

20

informasi adalah: bin-picking, dimana robot diperlukan untuk mengidentifikasi posisi

dan orientasi dari objek 3D dan kemudian mengambilnya. Satu lagi adalah aplikasi

industri inspeksi untuk objek 3D. Masih banyak lagi aplikasi yang mengarah ke bidang

computer vision dan rekonstruksi 3D.

Skripsi ini adalah tentang stereo vision dan kedalaman citra. Kedalaman citra

hanya ditemukan dengan memperkirakan korespondensi dari setiap pixel dalam citra.

Dari pencarian titik korespondensi maka dapat menghitung perbedaan dari setiap pixel

yang akan membentuk peta disparity. Untuk kalibrasi kamera, dapat diketahui dari

panjang fokus, dan jarak antara kedua pusat kamera, yang disebut baseline. Setelah itu

baru kita dapat menghitung depth map. Kamera dapat berorientasi pada cara yang

berbeda, dengan orientasi paralel dan sejajar. Kamera paralel terletak pada kedua citra

dimasukkan ke dalam image plane. Bila kamera terletak secara sejajar, maka akan lebih

sulit untuk menganalisis, walaupun merupakan kasus yang umum bagi sebagian besar

kasus praktis.

Untuk memecahkan masalah setelah menemukan korespondensi objek, kita dapat

menentukan batas tertentu, untuk mengkalibrasi dua kamera. Ada dua jenis parameter

yang menghubungkan kamera dengan geometri vision system. Parameter tersebut

dikenal sebagai parameter eksternal (ektrinsik) dan internal (intrinsik). Yang

didefinisikan sebagai berikut:

Parameter eksternal adalah parameter yang menentukan lokasi dan orientasi

dari kerangka acuan kamera yang diketahui.

21

Parameter internal adalah parameter yang diperlukan untuk menghubungkan

pixel koordinat-koordinat dari titik citra yang sesuai dengan korespondensi

koordinat dalam kerangka acuan kamera.

Untuk orientasi sejajar, akan dilakukan cara untuk meminimalkan pencarian titik

korespondensi dari seluruh citra dengan hanya satu baris yang disebut epipolar line.

Masalah stereo vision system dapat dibagi menjadi dua bagian:

■ Korespondensi: yang merupakan proses mencari titik-titik yang sesuai setiap pixel

dalam dua citra.

■ Rekonstruksi: yang merupakan proses membangun model citra 3D.

Setelah korespondensi didapatkan, kemudian dapat menghitung disparity, yang

merupakan perbedaan posisi dari dua titik yang sesuai. Jika diketahui parameter internal

dari dua kamera, yaitu panjang fokus, dan jarak antara kamera, maka dapat membentuk

peta disparty, yang menunjukkan kedalaman setiap pixel dalam citra. Dari hasil tersebut,

dapat dibangun model citra 3D.

2.4.1 Korespondensi

Proses menentukan perbandingan antara titik dalam pasangan citra

disebut korespondensi. Dengan asumsi bahwa kita memiliki dua bentuk citra

yang diambil dari dua sudut pandang yang berbeda. Proses menemukan

korespondensi hanya untuk menentukan titik mana pada citra kiri berhubungan

dengan titik dalam citra kanan. Tetapi, salah satu kesulitan menemukan

korespondensi adalah tidak semua titik di sebelah kiri terlihat dengan jelas,

karena orientasi yang berbeda dari kamera. Jadi sistem stereo harus dapat

22

menentukan bagian-bagian citra yang tidak cocok. Jika ditemukan titik-titik yang

cocok antara citra kiri dan kanan maka disebut pasangan konjugasi atau

conjugated pair.

Cara menemukan pasangan konjugasi dari sebuah titik dalam dua citra,

adalah dengan memilih sebuah titik di salah satu citra dan menentukan baris

pencarian pada citra lain, yang disebut garis epipolar atau epipolar line. Jadi

batas pencarian selalu dapat dikurangi menjadi 1D, tergantung pada posisi relatif

dari kamera. Jika dua foto akan diambil dari dua kamera pararel, maka garis

pencarian baris merupakan garis yang sama pada kedua citra. Jika foto akan

diambil dari dua kamera sejajar, maka garis pencarian harus garis yang melewati

titik korespondensi dan titik lainnya yang disebut epipole.

Ketika garis pencarian telah ditemukan, maka dapat menghitung nilai

kesamaan untuk setiap titik pada garis dengan membandingkan suatu daerah di

sekitar titik pada citra pertama dan daerah sekitar setiap titik pada garis

pencarian. Metode ini untuk menemukan korepondensi yang disebut area-based

method. Ada beberapa faktor yang menyulitkan dalam masalah korespondensi:

1. Occlusions: dimana titik dalam satu citra tidak sesuai dengan titik-

titik dalam citra lain. Ini biasanya terjadi pada sebuah objek yang

dekat dengan kamera, yang akan mengaburkan bagian dari citra

pertama yang dapat dilihat dalam citra kedua dan sebaliknya atau

suatu objek yang menghalangi suatu daerah pada satu kamera dan

bukan yang lain

23

Gambar 2.7 Occlusions

2. Noise: adanya noise pada citra pertama, yang tidak berkorespondensi

pada citra yang lainnya.

3. Photometric distortions: membuat intensitas yang diproyeksikan pada

titik yang berbeda dalam dua jendela yaitu citra akan mencerminkan

intensitas yang berbeda dari berbagai sudut.

4. Projective distortion: membuat proyeksi bentuk-bentuk yang berbeda

di kedua citra.

Efek ini dapat dilihat dalam dua cara:

1. Permukaan berkurang, yang terlihat dari tanda-tanda menjadi

lebih kecil.

2. Permukaan condong, muncul dengan tanda-tanda yang

dikompresi dalam arah kecondongan

3. Proyektif distorsi memberikan otak manusia citraan umum

tentang bentuk-bentuk benda-benda dibidang visual. Otak

24

manusia dapat menggunakan informasi ini untuk membuat

dugaan-dugaan tentang bentuk benda-benda yang dilihatnya.

Sehingga dapat mengisi kekosongan yang ditinggalkan oleh

teropong disparity.

Gambar 2.8 Projective distortion

5. Non-Texture Areas: ada bagian dimana tidak ada intensitas variasi,

maka daerah ini akan memiliki jumlah yang sama dalam hal

kesamaan nilai untuk seluruh bagian. Beberapa poin yang sesuai

dapat diperoleh ketika tidak ada tekstur dalam suatu wilayah yang

lebih besar daripada ukuran jendela. Hal ini tidak mungkin bagi

kesamaan untuk membedakan antara jendela sebelum dan

sesudahnya.

2.4.2 Area-Based Method

Area-Based Method digunakan untuk mencari korespondensi antara dua

citra stereo. Dalam area-based method elemen yang cocok adalah jendela dari

citra yang diambil di sekitar titik. Ini adalah jumlah kesamaan antara jendela di

kedua citra, yang akan menentukan korespondensi dari sebuah titik.

25

Menemukan titik korespondensi yang sukses akan memungkinkan untuk

mengukur perbedaan antara dua citra, dan menyediakan apa yang dibutuhkan

untuk membangun peta disparity. Menemukan perbedaan dari dua perbandingan

yang sesuai akan dijelaskan dalam bagian berikutnya. Ada dua cara untuk

menemukan kesamaan nilai dari jendela di kedua citra, yaitu perbandingan dari

area tersebut dengan melakukan oleh cross-correlation atau SSD (sum of

squared difference).

c(x,y,d) merupakan persamaan untuk menentukan titik korespondensi,

dimana η = [- n, n] adalah tinggi jendela, ξ = [- m, m] adalah panjang jendela, x

dan y adalah koordinasi untuk titik di sebelah kiri citra (ImL) dan d adalah

perpindahan sedangkan ImR merupakan titik di sebelah kanan citra. Area-Based

Method akan digunakan untuk menemukan peta disparity dari sebuah citra

stereo.

2.4.3 Disparity

Disparity adalah perbedaan posisi (pergeseran) antara dua titik yang

sesuai. Perbedaan ditemukan dengan mencari indeks dari nilai maksimum

korelasi (SSD) dari semua perpindahan titik:

26

SSD biasanya lebih sering digunkan dari cross-correlation, karena tidak

terjadi bias dengan adanya daerah yang sangat kecil atau sangat besar nilai

intensitasnya. Disparity dari semua titik dalam bentuk citra disebut peta

disparity, yang dapat dipindahkan sebagai citra.

Setelah disparity telah ditemukan pada semua titik-titik dalam citra

sebelah kiri maka kita dapat menghitung depth. Rumus depth berasal dari

segitiga sama sisi.

Gambar 2.9 Menemukan depth dari disparity

Ambil dasar Triangle 1, dan membaginya dengan ketinggian yang sama

Triangle. Ini sama dengan dasar Triangle 2, dibagi dengan tinggi Triangle 2.

Depth pada titik P adalah sama dengan tinggi Triangle 1.

xl dan xr adalah koordinat dari pr dan pl sehubungan dengan titik-titik

utama cr dan cl. Jadi, dalam contoh Gambar 2.9 xr adalah negatif dan xl adalah

positif.

27

Jadi depth setiap titik yang dilihat, adalah panjang focal f kali baseline T

dibagi dengan disparity dari titik itu (d).

2.4.4 Konsep Pencarian Window

Beberapa metode yang disarankan untuk proses menemukan titik

korespondensi dan membangun peta kedalaman yang lebih akurat antara lain:

1. Single window method.

2. Multiple window method.

3. Adaptive search window method.

Metode yang berbeda ini, digunakan untuk memecahkan beberapa

masalah seperti occlusion, projective distortion dan beberapa titik yang sesuai

dikaitkan dengan menemukan korespondensi antara dua citra.

2.4.4.1 Single Window Method

Metode ini adalah salah satu yang paling sederhana. Dengan

mengasumsikan window yang cocok dengan ukuran tetap dan bentuk

korespondensi selama proses pencarian.

Pilihan ukuran dan bentuk jendela ditentukan oleh pengguna dari

awal. Setelah ditetapkan, maka ukuran window tidak akan berubah.

28

Untuk mengoptimalkan kecepatan metode yang digunakan, kita

menentukan panjang pada garis pencarian diantara nilai-nilai maksimum

dan minimum. Nilai maksimum dan nilai minimum akan tergantung pada

sifat dari citra itu sendiri.

Gambar 2.10 Menemukan garis paraller stereo image

Keuntungan dari single window method adalah metode yang

sangat sederhana dan lebih cepat daripada dua metode lainnya.

Kerugian dari single window method adalah tidak dapat

memecahkan masalah pada beberapa titik korespondensi, non-texture

areas, projective distortion dan occlusions. Jadi tidak terlalu akurat dalam

memperkirakan depth.

Sebuah solusi untuk masalah beberapa titik koresponensi dengan

menggunakan single window method adalah dengan memilih

menambahkan satu titik dimana pengujian dengan mencari satu titik

korespondensi yang gagal. Hal ini dapat meningkatkan hasil, tetapi tidak

akan menyelesaikan masalah secara keseluruhan. Solusi yang lebih baik

29

dengan menggunakan Multiple Window method atau Adaptive search

window method.

2.4.4.2 Multiple Window Method

Dalam mutiple window method digunakan sembilan window yang

berbeda, yang ditunjukkan pada figure 5 di bawah, yang diambil untuk

menemukan korelasi pada setiap pixel dan menghitung disparity dengan

kesalahan SSD terkecil sehingga disparity akan memilih window yang

tepat.

Gambar 2.11 Sembilan asimetrik korelasi window

Dalam multiple window method memiliki keuntungan yaitu

dengan beberapa window dapat memperkirakan disparity yang digunakan

untuk menghitung ketidakpastian sebagai "perkiraan varians dari ukuran

disparity yang diperoleh dalam beberapa window, dan titik-titik

occlusions dari varians tak terbatas." Ini akan meningkatkan hasil di

daerah yang teksturnya kurang baik..

Keuntungan dari multiple window method yang dapat

meningkatkan perkiraan disparity, dan memberikan depth lebih akurat.

multiple window method masih lebih cepat daripada adaptive search

30

window method. Multiple window method juga dapat memecahkan

masalah occlusions.

Kerugiannya dari multiple window method adalah tidak dapat

menangani daerah yang luas yang tidak berstruktur, dan masih tidak

mampu sepenuhnya menyelesaikan masalah projective distortion.

2.4.4.3 Adaptive Search Window

Untuk memecahkan masalah dalam menemukan titik

korespondensi, salah satunya dengan adaptive search window. Algoritma

mengasumsikan penggunaan berbagai bentuk dan ukuran window

pencarian, dan karenanya disebut adaptive search window.

Bentuk window merupakan hal yang sangat penting karena

properti citra seperti intensitas, disparity dan tekstur adalah piecewise

halus. Semua itu berbeda-beda kehalusannya pada kebanyakan titik,

tetapi berubah secara dramatis pada batas-batas objek. Lebih jauh, karena

bertindak sebagai filter pada citra, dan memperkenalkan bias sistemik ke

dalam proses pencocokan.

Dalam metode ini ukuran window dan bentuk yang iteratively

diubah berdasarkan variasi lokal intensitas dan pekiraan depth. Adaptive

search window memberikan hasil yang jauh lebih baik tapi masih mahal.

Ukuran window harus cukup besar untuk memuat variasi

intensitas yang memadai untuk pencocokan yang akurat dan dapat

31

diterima, tetapi juga harus cukup kecil untuk meminimalkan efek

projective distortion.

Window yang sangat kecil tidak dapat mencakup variasi intensitas

yang cukup sehingga memberikan perkiraan kecilnya disparity karena

sinyal (intensitas varias) untuk rasio noise akan rendah.

Di sisi lain window yang besar dapat juga memberikan hasil

buruk karena posisi korelasi maksimum atau minimum SSD tidak akan

cocok karena efek projective distortions di kiri dan kanan citra. Untuk

semua hal-hal di atas ukuran window harus dipilih adaptif sesuai dengan

variasi intensitas.

Gambar 2.12 Window expansion

Metode ini menyarankan untuk "memilih window yang tepat

dengan mengevaluasi variasi lokal intensitas dan disparity". Dengan

menerapkan model statistik untuk distribusi disparity dalam window

harus dibangun. Model ini akan membantu untuk membangun sebuah

jendela, yang mencari disparity, dengan perkiraan ketidakpastian

minimum untuk setiap pixel dalam citra. Ukuran serta bentuk (persegi)

dari jendela adalah adaptif.

32

Salah satu kesulitan yang berhubungan dengan Adaptive search

window adalah perkiraan dari disparity. Karena perbedaan variasi adalah

hasil akhir yang dicari dalam stereo vision, pada saat yang sama itu

adalah salah satu kriteria yang digunakan untuk memperkirakan disparity.

Gambar 2.13 Posisi setiap ukuran dan bentuk dari window yang

dipilih setelah diuji

Gambar 2.14 Window yang dipilih pada setiap posisi

33

2.5 Parallel Stereo Images

Dalam kamera paralel, dapat diasumsikan bahwa sumbu optik adalah berbaris

sejajar satu sama lain dan berdampingan atau lebih tepatnya, garis yang menghubungkan

pusat-pusat optik yang sejajar dengan sumbu x. Ini berarti bahwa citra sebuah titik akan

memiliki koordinat y yang sama untuk dua kamera. Garis yang menghubungkan pusat-

pusat lensa kamera disebut baseline.

Dalam kasus dua kamera paralel, menemukan depth jauh lebih sederhana

daripada ketika non-paralel karena setiap pasangan konjugasi harus terletak pada baris

yang sama di kedua citra, yaitu nilai y akan sama. Menemukan korespondensi tidak

perlu untuk memperbaiki citra, dan tidak mengubah orientasi. Proses hanya perlu

memilih untuk setiap titik dalam citra kiri, cari titik korespondensi pada baris yang sama.

Kriteria untuk menemukan korespondensi dapat diukur baik menggunakan cross

correlation atau sum of squared difference (SSD). Salah satu dari metode yang

diusulkan untuk menemukan korespondensi, yaitu Single Window, Multiple Windows

atau Adaptive Search Window dapat digunakan selama proses tersebut. Pasti setiap

metode akan memberikan hasil yang berbeda.

2.6 Non-Parallel Stereo Images

Kasus dua kamera sejajar secara paralel bukanlah kasus umum dalam stereo

vision, kamera paralel membatasi ruang daerah dimana benda-benda yang terlihat di

kedua citra. Hal ini lebih umum untuk menempatkan kamera sehingga sumbu yang

mengarahkan kamera ke dalam. Situasi ini disebut konvergensi kamera atau kamera

sejajar. Dalam hal ini titik korespondensi pada umumnya tidak akan berada pada

koordinat y yang sama.

34

Stereo geometry dengan dua citra yang diambil dari dua kamera non-paralel

disebut epipolar geometry. Dalam hal ini akan memperkenalkan geometric property

dikenal dalam computer vision sebagai epipolar constraint.

Ada dua cara untuk mengekstraksi struktur 3-D dari pasangan citra:

1. Classic method, yang dikenal sebagai calibrated route. Pertama-tama

perlu untuk mengkalibrasi kamera (atau sudut pandang), berkenaan

dengan sejumlah sistem koordinat, menghitung epipolar geometry

dengan mengeluarkan matriks yang penting dari sistem, dan dari

menghitung ini struktur Euclidean 3-D pada scene citra.

2. Uncalibrated system adalah sebuah kuantitas yang dikenal sebagai

fundamental matrix dihitung dari citra korespondensi dan kemudian

digunakan untuk menentukan proyektif struktur 3-D dari scene citra.

2.6.1 Epipolar Geometry

Mengingat sepasang stereo kamera setiap titik dalam ruang 3-D yang

didefinisikan sebuah plane π , melewati P dan pusat proyeksi dari kedua kamera.

Plane π disebut epipolar plane dan garis-garis lurus di mana π memotong image

plane disebut conjugated epipolar lines. Ini adalah citra dalam satu kamera dari

sebuah sinar melalui pusat optik dan citra titik di lain

kamera. Citra dalam satu kamera kamera lain pusat proyeksi dikenal sebagai

epipole. Dengan kata lain, epipole adalah titik perpotongan dari garis yang

menghubungkan optik pusat, yaitu baseline, dengan image plane.

35

Gambar 2.15 Area epipolar

Dengan pengecualian dari epipole, hanya satu epipolar line melewati titik

citra apapun. Semua epipolar line melewati satu kamera-kamera epipole.

Epipolar constraint yang menyatakan bahwa titik berkorespondensi harus

terletak pada conjugated epipolar lines. epipolar geometry adalah geometri

proyektif intrinsik antara dua pandangan yang independen dari struktur scene,

dan hanya tergantung pada parameter internal kamera dan posisi relatif.

Menentukan posisi lokasi titik objek tergantung pada citra yang cocok

dengan lokasi titik objek dalam satu citra ke lokasi titik objek yang sama dalam

citra lain. Pada awalnya mungkin terlihat bahwa korespondensi memerlukan

pencarian melalui seluruh citra, tapi epipolar constraint mengurangi pencarian

pada satu garis. Jadi titik dalam satu citra pl menghasilkan garis dalam pada titik

korespondensi pr. Pencarian korespondensi dengan demikian mengurangi suatu

wilayah pada garis, karena merupakan masalah 1-D.

36

Gambar 2.16 Epipolar line

Hasil di atas ditemukan, menggunakan 8-titik algoritma. Setelah titik

korespondensi dari kiri dan kanan citra, program menghitung Fundamental

Matrix FP. Kemudian menemukan parameter epipolar line, dari koordinat titik di

sebelah kiri citra dan Fundamental Matrix. Dengan menarik garis di sebelah

kanan seperti yang ditunjukkan citra. Karena benar-benar memilih 8 titik

korespondensi, maka dihitung Fundamental Matrix, hanyalah perkiraan, dan

dengan demikian mengalami kesalahan. Namun dibandingkan dengan

kesederhanaan dan kecepatan, 8-titik algoritma masih merupakan salah satu yang

algoritma terbaik yang digunakan untuk memperkirakan geometri epipolar.

2.6.2 Essential Matrix

Frame referensi kiri dan kanan kamera dihubungkan melalui parameter

eksternal. Menentukan transformasi dalam ruang 3-D dengan vektor translasi T =

(Or-Ol) dan sebuah matriks rotasi R. Diketahui sebuah titik P dalam ruang

hubungan antara Pr dan Pl dan oleh karena itu

37

Hubungan antara titik dalam ruang 3-D dan proyeksi digambarkan oleh

persamaan dari proyeksi perspektif persamaan:

Persamaan dari epipolar plane melewati P dapat ditulis sebagai perkalian

cross dari vektor Pl, T dan (Pl-T) seperti di bawah ini :

Menggunakan hasil dari rumus ke (5)

Menulis produk cross sebagai kekurangan pangkat matriks :

Maka (5) akan menjadi :

E matriks disebut Essential matrix.

38

Essential matrix langsung menghubungkan epipolar constraint dengan

parameter eksternal dari sistem kamera. Titik essential matrix dalam satu kamera

pada epipolar line di kamera kedua. Titik essential matrix dalam frame kamera

melalui epipolar constraint:

Epl sebagai garis proyektif dalam right plane lr yang melewati pr dan

epipole er.

Gambar 2.17 Epipolar Constrain

2.6.3 The Fundamental Matrix

Seluruh pembahasan yang digunakan dalam kamera koordinat referensi

Frame tetapi sebenarnya mengukur citra dari koordinat pixel.

39

Gambar 2.18 Hubungan camera frame

Oleh karena itu agar dapat menggunakan essential matrix, perlu

mengetahui transformasi dari koordinat kamera pixel, yaitu parameter internal.

Keterbatasan ini dapat dihailangkan dengan menggunakan fundamental matrix.

Fundamental matrix sering digunakan dalam rekonstruksi objek yang

diambil dengan dua kamera yang tidak dikalibrasi. Ini adalah pemetaan yang

sangat kuat antara citra stereo. Ini mencakup baik dengan parameter internal

maupun eksternal dari sistem dan memungkinkan untuk menjelaskan epipolar

geometry dari titik yang sesuai.

Dengan asumsi Ml merupakan matriks parameter internal kamera kiri.

Sebuah titik pada koordinat citra p^l ditulis dalam frame kamera sebagai:

Demikian pula untuk titik sebelah kanan :

40

Dengan mensubstitusikan persamaan ini pada persamaan (10) di atas,

maka didapatkan:

dimana :

F di sini adalah fundamental matrix. Seperti persamaan (15), untuk

fundamental matrix yang dimiliki

Persamaan (20) dapat dianggap sebagai persamaan dari projective

epipolar line yang sesuai dengan titik pl.

Perbedaan essential matrix dan fundamental matrix adalah bahwa

fundamental matrix didefinisikan dalam bentuk koordinat pixel dan essential

matrix didefinisikan dalam istilah koordinat kamera. Oleh karena itu jika dapat

memperkirakan fundamental matrix dari sejumlah titik pembanding dalam pixel

koordinat, maka dapat merekonstruksi epipolar geometry tanpa informasi sama

sekali tentang parameter internal atau eksternal.

2.6.4 Recovering Epipolar Geometry and Eight Point Algorithm

Banyak teknik yang ditemukan untuk epipolar pemulihan. Epipolar

geometry dapat diturunkan dari titik yang sesuai pada citra dengan menggunakan

8-points algorithm. 8-points algorithm sering digunakan untuk menghitung

fundamental matrix dari delapan pasang atau lebih titik yang koresponden.

41

Keuntungan dari 8-points algorithm adalah linear, maka dengan cepat

dan mudah diimplementasikan. Jika 8 titik yang berkorespondensi diketahui,

maka solusi dari serangkaian persamaan linear dapat digunakan.

Kerugian dari 8-points algorithm sangat rentan terhadap noise. Tetapi

translation dan scaling (normalisasi) sebelum merumuskan persamaan linier

meningkatkan hasil. Transformasi tidak meningkatkan kompleksitas dari

algoritma.

Mengasumsikan bahwa n titik korespondensi telah dibentuk antara kiri

dan kanan citra. Setiap korepondensi menyediakan persamaan linier homogen

dalam bentuk:

Ada sedikitnya 8 korespondensi (n³8), sebuah sistem linear homogenya

terbentuk. Jika pl = (x, y, 1) dan pr = (x ', y', 1) adalah dua titik yang sesuai di kiri

dan kanan citra, dengan koordinasi yang homogen. Dari epipolar constraint,

persamaan (18), untuk setiap titik i memiliki:

Dimana f1 melalui F9 adalah unsur fundamental matrix. Memperluas

(21) untuk setiap salah satu titik maka akan memiliki 8 persamaan dalam bentuk:

42

Dapat disusun kembali sebagai AF = 0, di mana A adalah (n x 9)

pengukuran persamaan matriks, dan F adalah fundamental matrix ditunjukkan

dengan 9-vektor.

Untuk 8-points algorithm, memiliki (n = 8). Ini merupakan masalah

aljabar linear standar karena jika sistem bersifat homogen, terdapat solusi unik

hingga faktor skala yang tidak dikenal. Maka solusinya adalah eigenvector

dengan minimum eigenvalue dari ATA. Jika kita memperluas A menggunakan

Singular Value Decomposition (SVD), dengan metode ini maka dapat menulis A

sebagai:

Solusi sistem SVD adalah kolom V terkait dengan setidaknya nilai tunggal A.

Jika A adalah matrik n x n, maka vektor tak nol x di dalam Rn dinamakan

eigenvector dari A jika Ax adalah kelipatan skalar dari x, yaitu Ax = λx

Untuk suatu skalar λ disebut eigenvalue dari A dan x dikatakan

eigenvector yang bersesuaian dengan λ.

Untuk mencari eigenvalue matrik A yang berukuran n x n maka kita

menuliskannya kembali Ax = λx sebagai Ax = λIx

(λI – A)x = 0

bab ii kajian pustaka -...

Documents