Jaka jest różnica w oszacowaniu Bayesa i oszacowaniu maksymalnego prawdopodobieństwa?

50

Proszę wyjaśnić mi różnicę w oszacowaniu Bayesa i oszacowaniu maksymalnego prawdopodobieństwa?

triomphe
źródło
7
Zależy od rodzaju szacunków bayesowskich. MAPA? Tylny znaczy? Wynik minimalizacji ryzyka Bayesa dla niektórych funkcji strat? Każdy z powyższych? Coś innego?
Glen_b
2
Odpowiedziałem tutaj na to pytanie lub jego analog. stats.stackexchange.com/questions/73439/… Jakie masz problemy ze zrozumieniem tych dwóch? Więcej szczegółów pomoże nam udzielić lepszej odpowiedzi.
Przywróć Monikę
1
Z podręcznika STAN: „Jeśli uprzedni jest jednolity, tryb tylny odpowiada oszacowaniu maksymalnego prawdopodobieństwa (MLE) parametrów. Jeśli uprzedni nie jest jednolity, tryb tylny jest czasami nazywany maksymalnym oszacowaniem tylnym (MAP). „
Neerav,
@Neerav to odpowiedź, której potrzebowałem. thx
javadba
Prawdopodobnie przydatna odpowiedź na konkretny przypadek maksymalnego szacunku a posteriori Bayesa znajduje się tutaj .
pglpm

Odpowiedzi:

68

To bardzo szerokie pytanie, a moja odpowiedź tutaj zaczyna tylko nieco zarysować powierzchnię. Wykorzystam zasadę Bayesa do wyjaśnienia pojęć.

Załóżmy, że zestaw parametrów rozkładu prawdopodobieństwa, , najlepiej wyjaśnia DataSet D . Możemy chcieć oszacować parametry θ przy pomocy reguły Bayesa:θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

Wyjaśnienia są następujące:

Oszacowanie maksymalnego prawdopodobieństwa

θp(D|θ)θ^θ^

p(θ)p(D)p(θ)θ

Oszacowanie Bayesowskie

p(θ|D)θ

θp(θ|D)θθθ

evidence

p(D)=θp(D|θ)p(θ)dθ

Prowadzi to do koncepcji „sprzężonych priorów” w szacunkach Bayesa. W przypadku danej funkcji wiarygodności, jeśli mamy wybór, w jaki sposób wyrażamy nasze wcześniejsze przekonania, musimy użyć tej formy, która pozwala nam przeprowadzić integrację pokazaną powyżej. Idea sprzężonych priorów i ich praktyczna implementacja zostały dość dobrze wyjaśnione w tym poście przez COOlSerdash.

Zhubarb
źródło
1
Czy rozwinąłbyś coś więcej na ten temat? : „mianownik w regule Bayesa, tj. dowód”.
Daniel
1
Rozszerzyłem swoją odpowiedź.
Zhubarb
@Berkan w równaniu tutaj, prawdopodobieństwo P (D | theta). Jednak funkcja prawdopodobieństwa jest zdefiniowana jako P (theta | D), to jest funkcja parametru dla danych. Zawsze jestem zdezorientowany. Termin prawdopodobieństwo odnosi się tutaj do różnych rzeczy? Czy mógłbyś to rozwinąć? Wielkie dzięki!
zesla
1
@zesla, jeśli moje rozumowanie jest poprawne, P (theta | D) nie jest prawdopodobne - jest to późniejsze. Oznacza to, że rozkład theta jest zależny od źródła danych, z którego masz próbki. Prawdopodobieństwo jest takie, jak powiedziałeś: P (D | theta) - dystrybucja twoich danych sparametryzowana przez theta, lub, mówiąc bardziej intuicyjnie, „prawdopodobieństwo zobaczenia tego, co widzisz” jako funkcji theta. Czy to ma sens? Wszyscy inni: popraw mnie tam, gdzie się mylę.
grisaitis
@zesla, wyjaśnienie podane przez grisaitis jest poprawne.
Zhubarb,
13

Myślę, że mówisz o estymacji punktowej jak w wnioskowaniu parametrycznym, abyśmy mogli założyć parametryczny model prawdopodobieństwa dla mechanizmu generowania danych, ale rzeczywista wartość parametru jest nieznana.

Oszacowanie maksymalnego prawdopodobieństwa odnosi się do zastosowania modelu prawdopodobieństwa dla danych i optymalizacji łącznej funkcji wiarygodności obserwowanych danych na podstawie jednego lub więcej parametrów. W związku z tym widać, że oszacowane parametry są najbardziej zgodne z obserwowanymi danymi w odniesieniu do dowolnego innego parametru w przestrzeni parametrów. Należy zauważyć, że takie funkcje prawdopodobieństwa niekoniecznie są postrzegane jako „uwarunkowane” parametrami, ponieważ parametry nie są zmiennymi losowymi, dlatego bardziej wyrafinowane jest wyobrażenie sobie prawdopodobieństwa różnych wyników porównujących dwie różne parametryzacje. Okazuje się, że jest to filozoficznie rozsądne podejście.

Szacowanie bayesowskie jest nieco bardziej ogólne, ponieważ niekoniecznie maksymalizujemy bayesowski analog prawdopodobieństwa (gęstość a posteriori). Jednak analogiczny typ estymacji (lub estymacji w trybie bocznym) jest postrzegany jako maksymalizujący prawdopodobieństwo parametru tylnego w zależności od danych. Zazwyczaj szacunki Bayesa uzyskane w taki sposób zachowują się prawie dokładnie tak samo jak ML. Kluczową różnicą jest to, że wnioskowanie Bayesa pozwala na jawną metodę włączenia wcześniejszych informacji.

Również „Epicka historia maksymalnego prawdopodobieństwa” stanowi pouczającą lekturę

http://arxiv.org/pdf/0804.2996.pdf

AdamO
źródło
Czy rozwinąłbyś coś więcej na ten temat? „Jednak analogiczny typ oszacowania (lub oszacowania w trybie bocznym) jest postrzegany jako maksymalizujący prawdopodobieństwo parametru tylnego w zależności od danych.”
Daniel
Tryb boczny jest trochę mylący, ponieważ przy ciągłych DF wartość jest dobrze zdefiniowana. Gęstości tylne są związane z prawdopodobieństwem w częstym przypadku, z tym wyjątkiem, że pozwala symulować parametry z gęstości tylnej. Co ciekawe, najbardziej intuicyjnie uważa się, że „środek boczny” jest najlepszym oszacowaniem punktowym parametru. Takie podejście jest często stosowane, a dla symetrycznych, jednomodalnych gęstości daje to prawidłowe wiarygodne przedziały, które są zgodne z ML. Tryb tylny jest tylko wartością parametru na szczycie gęstości tylnej.
AdamO,
O „daje to wiarygodne wiarygodne przedziały, które są zgodne z ML.”: To naprawdę zależy od modelu, prawda? Mogą być spójne lub nie ...
Daniel
1
Kwestia podstawowych założeń parametrycznych motywuje dyskusję o pełni parametryczny vs. semi-parametrycznym lub nieprzestrzegania -parametric wnioskowania. To nie jest problem ML vs Bayesian i nie jesteś pierwszym, który popełnił ten błąd. ML jest podejściem w pełni parametrycznym, pozwala oszacować pewne rzeczy, których SP lub NP nie mogą (i często bardziej efektywnie, gdy mogą). Prawidłowe określenie modelu prawdopodobieństwa w ML jest dokładnie tak, jak wybranie prawidłowego wcześniejszego i wszystkich sugerowanych właściwości niezawodności (i problemów z wrażliwością).
AdamO
BTW, wasze komentarze wywołały w moim umyśle to pytanie. Jakieś komentarze na ten temat? stats.stackexchange.com/questions/74164/…
Daniel
2

Szacunki bayesowskie to wnioskowanie bayesowskie, podczas gdy MLE jest rodzajem metod wnioskowania częstych.

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

Alternatywa MLE w wnioskowaniu bayesowskim nazywa się oszacowaniem maksymalnym a posteriori (w skrócie MAP), a tak naprawdę MLE jest szczególnym przypadkiem MAP, w którym przeor jest jednolity, jak widzimy powyżej i jak stwierdzono w Wikipedii :

Z punktu widzenia wnioskowania bayesowskiego MLE jest szczególnym przypadkiem oceny maksymalnej a posteriori (MAP), która zakłada jednolity wcześniejszy rozkład parametrów.

Szczegółowe informacje można znaleźć w tym niesamowitym artykule: MLE vs MAP: połączenie między maksymalnym prawdopodobieństwem a maksymalnym oszacowaniem a posteriori .

Jeszcze jedna różnica polega na tym, że maksymalne prawdopodobieństwo jest zbyt duże, ale jeśli przyjmie się podejście bayesowskie, problemu nadmiernego dopasowania można uniknąć.

Lerner Zhang
źródło
1
Jedną z fajnych rzeczy w Bayes jest to, że nie jesteś zobowiązany do obliczenia żadnego oszacowania punktowego. Cała tylna gęstość może być twoim „oszacowaniem”.
Frank Harrell,
@FrankHarrell Drogi profesorze Harrell, czy mógłbyś mi pomóc w edycji odpowiedzi, jeśli popełniłem gdzieś straszne błędy? Dziękuję bardzo!
Lerner Zhang
1
Nie chciałem sugerować, że popełniłeś błąd.
Frank Harrell,
@ lerner: Chcę ostrzec przed identyfikowaniem oszacowania maksymalnego prawdopodobieństwa jako szczególnego przypadku oszacowania maksymalnego a posteriori (gdy uprzednia jest stała): zobacz dlaczego w tej odpowiedzi .
pglpm