chapter 3 maximum likelihood and bayesian estimation-fix
Post on 13-Apr-2017
97 Views
Preview:
TRANSCRIPT
2
INTRODUCTION
Max Likelihood
Bayesian
• Permasalahan estimasi parameter adalah salah satu hal klasik dalam statistik, yang dapat dilakukan melalui pendekatan dalam berbagai cara.
• Jika kita tahu bentuk parametrik densitas probabilitas kelas-kondisional kita dapat mengurangi learning task dari salah satu temuan distribusinya sendiri parameter yang ditemukan menggunakan hasil distribusi untuk klasifikasi.
• Kita akan mempertimbangkan dua prosedur umum estimasi yaitu:
Maksimum Likelihood Estimation dan Bayesian Estimation hasilnya secara
identik hampir sama namun secara konsep berbeda.
3
OIntroductionO Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:O P(i) : priorsO P(x | i) : class-conditional densities
Unfortunately, we rarely have this complete information!
O Desain classifier berdasarkan set of labeled training samples (supervised learning)O Asumsi: priors diketahuiO Membutuhkan kecukupan jumlah training samples
untuk estimasi class-conditional densities, khususnya saat dimensi feature space adalah besar
1
4
MAXIMUM LIKELIHOOD ESTIMATION
O Metode maksimum Likelihood berusaha menemukan nilai parameter terbaik yang didukung oleh data training, yaitu memaksimalkan peluang mendapatkan sampel yang diamati sebenarnya.
O Memiliki sifat konvergensi yang baik dengan meningkatnya ukuran sampel; Diperkirakan nilai parameter mendekati nilai sebenarnya sebagai n meningkat.
O Lebih simpel dari pada alternative technique lainnya
5
O Asumsi kita memiliki conditional classes danP(x | j) ~ N( j, j)
P(x | j) P (x | j, j), where
)...)x,xcov(,,,...,,(),( nj
mj
22j
11j
2j
1jjj
2
Menggunakan kelas j samples untuk estimasi class j parameters
PRINSIP UMUM MAXIMUM LIKELIHOOD ESTIMATION
Pattern Classification, Chapter 3 6
O Example of a specific case: unknown
O P(x | ) ~ N(, )(Contoh dari multivariate normal population)
= , dimana Max Likelihood estimasi untuk “must satisfy”:
)x()|x(Pln and
)x()x(21)2(ln
21)|x(Pln
1kk
1k
tk
dk
0)ˆx( knk
1k
1
2
The Gaussian Case: Unknown μ
Pattern Classification, Chapter 3 7
• Multiplying oleh & penataan ulang, diperoleh:
yang merupakan arithmetic average atau mean dari samples of the training samples!
Conclusion: Memberikan P(xk | j), j = 1, 2, …, c menjadi Gaussian pada d-dimensional feature space, mengestimasi vector = (1, 2, …, c)t dan performa classification menggunakan Bayes decision rule ( chapter 2).
nk
1kkx
n1ˆ
2
Pattern Classification, Chapter 3 8
O Max Likelihood Estimation: O Univariate Gaussian Case: unknown &
= (1, 2) = (, 2)
02
)x(2
1
0)x(1
0))|x(P(ln
))|x(P(lnl
)x(2
12ln21)|x(Plnl
22
21k
2
1k2
k2
k1
21k
22k
2
The Gaussian Case :Unknown μ and Σ
9
OIntroductionO Bayesian framework
O Desain secara optimal classifier dengan diketahuinya:O P(i) : priorsO P(x | i) : class-conditional densities
Unfortunately, we rarely have this complete information!
O Desain classifier berdasarkan set of labeled training samples (supervised learning)O Asumsi: priors diketahuiO Membutuhkan kecukupan jumlah training samples
untuk estimasi class-conditional densities, khususnya saat dimensi feature space adalah besar
1
10
O Asumsi kita memiliki conditional classes danP(x | j) ~ N( j, j)
P(x | j) P (x | j, j), where
)...)x,xcov(,,,...,,(),( nj
mj
22j
11j
2j
1jjj
2
Menggunakan kelas j samples untuk estimasi class j parameters
PRINSIP UMUM MAXIMUM LIKELIHOOD ESTIMATION
Pattern Classification, Chapter 3 11
O Max Likelihood Estimation: O Univariate Gaussian Case: unknown &
= (1, 2) = (, 2)
02
)x(2
1
0)x(1
0))|x(P(ln
))|x(P(lnl
)x(2
12ln21)|x(Plnl
22
21k
2
1k2
k2
k1
21k
22k
2
The Gaussian Case :Unknown μ and Σ
Pattern Classification, Chapter 3 12
O Estimasi maksimum likelihood untuk 2 varians σ adalah bias
O An unbiased estimator untuk adalah:
222i .
n1n)xx(
n1E
matrix covariance Sample
nk
1k
tkk )ˆx)(x(
1-n1C
2
BIAS
13
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning) untuk masalah klasifikasi pola.
O Meskipun nantinya hasil yang di dapat dengan metode ini umumnya hampir identik dengan hasil maksimum likelihood, namun terdapat perbedaan secara konseptual, yaitu:O dalam metode maksimum likelihood kita melihat vektor true
parameter, kita mencari , dan harus diperbaiki,θO dalam Bayesian learning, kita mempertimbangkan menjadi θ
variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.
Pattern Classification, Chapter 3 15
O Estimasi maksimum likelihood untuk 2 varians σ adalah bias
O An unbiased estimator untuk adalah:
222i .
n1n)xx(
n1E
matrix covariance Sample
nk
1k
tkk )ˆx)(x(
1-n1C
2
BIAS
16
3.3 BAYESIAN ESTIMATION
O Estimasi Bayesian (pendekatan Bayesian Learning) untuk masalah klasifikasi pola.
O Meskipun nantinya hasil yang di dapat dengan metode ini umumnya hampir identik dengan hasil maksimum likelihood, namun terdapat perbedaan secara konseptual, yaitu:O dalam metode maksimum likelihood kita melihat vektor true
parameter, kita mencari , dan harus diperbaiki,θO dalam Bayesian learning, kita mempertimbangkan menjadi θ
variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.
Pattern Classification, Chapter 1 17
Tujuan: Estimate menggunakan a-posteriori density P( | D)
O Univariate Gaussian case: P( | D) adalah sebagai unknown parameter
0 and 0 are known!
),N( ~ )P(),N( ~ ) | P(x
200
2
4
3.4 BAYESIAN PARAMETER ESTIMATION:GAUSSIAN CASE
18
O Kasus di mana μ adalah satu-satunya parameter yang tidak diketahui.
O Untuk mempermudahnya, kita memperlakukan pertama kasus univariat :
3.4.1 The Univariate Case: p(μ|D)
Pattern Classification, Chapter 1 20
O P( | D) telah dihitungO P(x | D) masih harus dihitung
membutuhkan:
Membutuhkan class-conditional density P(x | Dj, j)P(x | Dj, j) together with P(j) and using Bayes formula,
we obtain the Bayesian classification rule:
Gaussian is d)|(P).|x(P)|x(P DD
),(N~)|x(P 2n
2n D
)(P).,|x(PMax,x|(PMax jjjj
jj
DD
4
3.4.2 The Univariate Case: p(x|D)
21
3.4.3 The Multivariate Case
O Treatment kasus multivariat dimana Σ diketahui tapi μ tidak, adalah langsunggeneralisasi dari kasus univariat.
Pattern Classification, Chapter 1 22
O P(x | D) perhitungan dapat diterapkan untuk setiap situasi dimana kepadatan diketahui dapat parametrized.
O Asumsi dasarnya adalah:Bentuk P(x | ) diasumsikan diketahui, tapi nilai tidak diketahui sebenarnya.O Pengetahuan tentang diasumsikan dikenal sebagai prior
density P()O The rest of our knowledge about dikenal sebagai set D of n
random variables x1, x2, …, xn yang mengikuti P(x)
5
3.5 BAYESIAN PARAMETER ESTIMATION:GENERAL THEORY
Pattern Classification, Chapter 1 23
The basic problem is:“Compute the posterior density P( | D)”then “Derive P(x | D)”
Penggunaan Bayes formula, kita memiliki:
Dan melalui asumsi independen:
)|x(P)|(P knk
1k
D
,d)(P).|(P)(P).|(P)|(P
D
DD
5
24
Example 1: Recursive Bayes learning and maximum likelihood
O Metode Recursive Bayes pembaruan Bayesian parameter estimasi secara bertahap pada setiap poin training sampel.
O Pada prinsipnya lebih disukai maksimumlikelihood karena lebih mudah untuk menerapkan dan dalam batas training set besar memberikan pengklasifikasi yang hampir sama akurat.
25
3.5.1 When do Maximum Likelihood and Bayes methods
differO Dalam hampir setiap kasus, maksimum likelihood dan Bayes
Solutions yang setara dalam batas asimtotik data training terbatas.
O Untuk masalah pengenalan pola praktis yang selalu memiliki seperangkat data training terbatas kapan kita harus memilih MLh or B?
O Kontribusi relatif sumber-sumber ini tergantung pada masalah ada argumen teoritis dan metodologis mendukung estimasi Bayesian, meskipun dalam prakteknya kemungkinan maksimum likelihood sederhana, dan bila digunakan untuk merancang pengklasifikasi, dapat menyebabkan pengklasifikasi hampir sama akurat.
26
O Ada beberapa kriteria yang akan mempengaruhi pilihan: komputasi kompleksitas dan metode maksimum likelihood
lebih disukai O karena hanya memerlukan diferensial teknik kalkulus atau
pencarian gradien, daripada integrasi multidimensi kompleks. interpretability.
O Dalam banyak kasus maksimum likelihood akan lebih mudah untuk ditafsirkan karena ia mengembalikan model tunggal terbaik dari set desainer yang tersedia. Pendekatan Bayesian mencerminkan ketidakpastian yang tersisa dikemungkinan model.
keyakinan informasi sebelumnya, O seperti dalam bentuk p distribusi yang mendasari (x | ). Sebuah θ
solusi maksimum likelihood p (x | ) tentu saja harus dari bentuk θparametrik yang diasumsikan; tidak begitu untuk solusi Bayesian.
27
O Ada tiga sumber kesalahan klasifikasi pada final sistem :
1. Bayes atau indistinguish ability error:kesalahan karena tumpang tindih kepadatan p (x | i) untuk nilai yang ωberbeda dari i. Kesalahan ini adalah properti yang melekat dari masalah dan tidak pernah bisa dihilangkan.
2. Model error: kesalahan karena memiliki model yang tidak sesuai. Kesalahan ini hanya dapat dihilangkan jika desainer menentukan model yang mencakup model yang benar yang dihasilkan data.
3. Kesalahan estimasi: kesalahan yang timbul dari kenyataan bahwa parameter diperkirakan dari sampel yang terbatas. Kesalahan ini dapat dikurangi dengan meningkatkan pelatihan data
28
3.5.2 NON-INFORMATIVE PRIORS AND INVARIANCE
O Analoginya, dalam Bayesian framework kita memiliki "non-informatif" prior melalui parameter untuk distribusi kategori tunggal.
O Misalkan kita menggunakan metode Bayesian untuk menyimpulkan dari data mean dan varians dari Gaussian.
O Apa prior memungkinkan kita pasang di parameter ini? O Tentunya unit pengukuran spasial - meter, kaki, inci - adalah
historical accident dan tidak relevan dengan bentuk fungsional prior.
O Sehingga hal ini diimplikasikan sebagai scale invariance:
29
3.6 SUFFICIENT STATISTICS
O Kecukupan statistik adalah fungsi dari sampel θyang berisi semua informasi yang diperlukan untuk menentukan . θ
O Kecukupan statistik untuk model tertentu (misalnya, eksponensial family) kita hanya perlu memperkirakan nilainya dari data untuk membuat classifier tidak ada fungsi lain dari data yang relevan.
30
3.6.1 SUFFICIENT STATISTICS AND THE
EXPONENTIAL FAMILYO Untuk melihat bagaimana Faktorisasi Teorema
dapat digunakan untuk mendapatkan statistik yang cukup, pertimbangkan sekali lagi kasus normal d-dimensi akrab dengan kovarians tetap tetapi berarti tidak diketahui
31
3.7 PROBLEMS OF DIMENSIONALITY
O Dalam kategori aplikasi multi praktis, itu sama sekali tidak biasa menghadapi masalahmelibatkan lima puluh atau seratus fitur, terutama jika fitur yang biner dihargai.Kita mungkin biasanya percaya bahwa setiap fitur berguna untuk setidaknya beberapa dari diskriminasi;sementara kita dapat meragukan bahwa setiap fitur memberikan informasi yang independen,sengaja fitur berlebihan belum disertakan. Ada dua isu yangharus dihadapkan. Yang paling penting adalah bagaimana akurasi klasifikasi tergantung padadimensi (dan jumlah data pelatihan); yang kedua adalah komputasi yang kompleksitas merancang classifier
32
3.7.1 ACCURACY, DIMENSION, AND TRAINING SAMPLE SIZE
O Jika fitur secara statistik independen, ada beberapa hasil teoritis yang menyarankan kemungkinan kinerja yang sangat baik.
O Sebagai contoh, perhatikan dua kelas multivariat kasus normal dengan kovarians yang sama di mana p (x | ωj) ~ N (μj, Σ), j =1, 2. Jika a priori probabilitas yang sama, maka tidak sulit untuk menunjukkan ( bahwa tingkat kesalahan Bayes diberikan oleh
33
3.7.3 OVERFITTINGO Ini sering terjadi jumlah sampel yang tersedia tidak
memadai, dan pertanyaan tentang kelanjutannya muncul.
O Salah satu kemungkinan adalah untuk mengurangi dimensi ini, baik dengan mendesain ulang extractor fitur, dengan memilih bagian yang tepat dari fitur yang ada, atau dengan menggabungkan fitur yang ada dalam beberapa cara. kemungkinan lainnya adalah asumsi semua kelas c berbagi matriks kovarians yang sama, dan untuk pool data yang tersedia
35
3.8 Expectation-Maximization (EM)
O Ide dasar dari harapan maksimalisasi atau algoritma EM, adalah untuk iteratively memperkirakan likelihood dari data yang ada. Metode memiliki prekursor dalam algoritma Baum-Welch .
37
3.9 BAYESIAN BELIEF NETWORKS
O Disini akan ditunjukan grafik dependensi yang dinamakan bayesian belief networks atau causal networks bentuk topologi directed acyclic graph (DAG)
38
3.10 HIDDEN MARKOV MODELS
OHidden Markov Model (HMMs) telah menemukan penggunaan terbesar di masalah, untuk speech recognition or gesture recognition.
39
3.10.1 First-order Markov models
O Kami menganggap urutan state pada successive times ,urutan state setiap saat t dilambangkanω (t). Sebuah urutan tertentu dari panjang T dilambangkan dengan
40
3.10.2 FIRST-ORDER HIDDEN MARKOV MODELS
O Kami terus berasumsi bahwa pada setiap langkah waktu t sistem ini dalam ω negara (t) tapi sekarangkami juga menganggap bahwa itu memancarkan beberapa (terlihat) simbol v (t). Sementara canggih Markovmodel memungkinkan untuk emisi fungsi kontinu (mis, spektrum), kita akan membatasidiri untuk kasus di mana simbol diskrit dipancarkan
44
3.10.5 DECODINGO Memberikan sequence dari visibel
state, permasalahan decoding adalah menemukan urutan kemungkinan terbaik dari hidden state.
45
SUMMARYO Jika kita tahu bentuk parametrik densitas probabilitas kelas-
kondisional kita dapat mengurangi learning task dari salah satu temuan distribusinya sendiri .
O Maksimum Likelihood Estimation dan Bayesian Estimation hasilnya secara identik hampir sama namun secara konsep berbeda
O Perbedaan secara konseptual antara maximum likelihood dan bayesian estimation, yaitu: dalam metode maksimum likelihood kita melihat vektor true
parameter, kita mencari , θ dan harus diperbaiki, dalam Bayesian learning, kita mempertimbangkan θ menjadi
variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.
top related