Porównywanie oszacowania maksymalnego prawdopodobieństwa (MLE) i twierdzenia Bayesa

12

W twierdzeniu bayesowskim , a z książki, którą czytam, nazywa się prawdopodobieństwo , ale zakładam, że to tylko prawdopodobieństwo warunkowe od podane , prawda? p(x|y)xy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

Do największej wiarygodności stara się maksymalizować , prawda? Jeśli tak, to jestem bardzo zdezorientowany, ponieważ są zmiennymi losowymi, prawda? Aby zmaksymalizować jest po prostu dowiedzieć się ? Jeszcze jeden problem, jeśli te 2 losowe zmienne są niezależne, to to tylko , prawda? Zatem maksymalizacja polega na maksymalizacji .x , y p ( x | y ) y p ( x | Y ) P ( x ) p ( x | Y ) P ( x )p(x|y)x,yp(x|y) y^p(x|y)p(x)p(x|y)p(x)

A może jest funkcją niektórych parametrów , czyli , a MLE próbuje znaleźć która może zmaksymalizować ? Czy nawet, że jest w rzeczywistości parametrami modelu, a nie zmienną losową, maksymalizując prawdopodobieństwo znalezienia ?θ P ( x | y ; θ ) θ P ( x | y ) y yp(x|y)θp(x|y;θ)θp(x|y)yy^

AKTUALIZACJA

Jestem nowicjuszem w uczeniu maszynowym, a ten problem jest pomieszany z treściami, które przeczytałem z samouczka uczenia maszynowego. Oto on, biorąc pod uwagę obserwowany zestaw danych , wartości docelowe to , a ja staram się dopasować model do tego zestawu danych , więc zakładam, że biorąc pod uwagę , ma formę rozkładu o nazwie sparametryzowaną przez , czyli , i zakładam, że jest to prawdopodobieństwo późniejsze , prawda?{ Y 1 , Y 2 , . . . , y n } x y W θ p ( y | x ; θ ){x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

Teraz, aby oszacować wartość , używam MLE. OK, nadchodzi mój problem, myślę, że prawdopodobieństwo to , prawda? Maksymalizacja prawdopodobieństwa oznacza, że ​​powinienem wybrać właściwą i ?p ( x | y ; θ ) θ yθp(x|y;θ)θy

Jeśli moje rozumienie prawdopodobieństwa jest błędne, proszę wskazać mi właściwą drogę.

awokado
źródło
Myślę, że zamieszanie jest następujące: twierdzenie Bayesa jest po prostu manipulacją prawdopodobieństwami warunkowymi podanymi na początku pytania. Bayesa Oszacowanie korzysta z Twierdzenie Bayesa do oszacowania parametrów. Dopiero w tym drugim przypadku do gry wchodzi oszacowanie maksymalnego prawdopodobieństwa (MLE) i parametr theta itp.
Zhubarb
@Berkan, cóż, właściwie próbuję dowiedzieć się, jakie jest prawdopodobieństwo, biorąc pod uwagę . x,y,θ
awokado
1
Rozumiem, poleciłbym wam rzucić okiem na ten wspaniały zestaw slajdów wprowadzających do oceny parametrów.
Zhubarb
1
Kolejnym świetnym tematem do przeczytania są estymatory Empirical Bayesa. Właśnie dowiedzieliśmy się o tych w mojej klasie :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic

Odpowiedzi:

16

Myślę, że podstawowe nieporozumienie wynika z pytań, które zadajesz w pierwszej połowie pytania. Do tej odpowiedzi podchodzę jako kontrastujące MLE i Bayesowskie paradygmaty wnioskowania. Bardzo przystępną dyskusję na temat MLE można znaleźć w rozdziale 1 Gary'ego Kinga, Unifying Political Methodology. Analiza danych bayesowskich Gelmana może dostarczyć szczegółów po stronie bayesowskiej.

W twierdzeniu Bayesa iz książki, którą czytam, nazywa się prawdopodobieństwo, ale zakładam, że to tylko warunkowe prawdopodobieństwo biorąc pod uwagę , prawda? p(x|y)xy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

Prawdopodobieństwo jest prawdopodobieństwem warunkowym. Dla bayesowskiego wzór ten opisuje rozkład parametru dla danych i wcześniejszych . Ale ponieważ ta notacja nie odzwierciedla twojego zamiaru, odtąd będę używać ( , ) dla parametrów i dla twoich danych.x p ( y ) θ y xyxp(y)θyx

Ale twoja aktualizacja wskazuje, że jest obserwowane z jakiejś dystrybucji . Jeśli umieścimy nasze dane i parametry w odpowiednich miejscach w regule Bayesa, okaże się, że te dodatkowe parametry nie stwarzają problemów dla Bayesianów: p ( x | θ , y ) p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Wierzę, że to wyrażenie jest tym, czego szukasz w swojej aktualizacji.

Oszacowanie maksymalnego prawdopodobieństwa próbuje zmaksymalizować , prawda?p(x,y|θ)

Tak. MLE zakłada, że Oznacza to, że traktuje termin jako nieznany (i niepoznawalna) stała. Natomiast wnioskowanie bayesowskie traktuje jako stałą normalizującą (tak, że prawdopodobieństwa sumują / całkują się do jedności), a jako kluczową informację: pierwszeństwo. Możemy myśleć o jako sposobie nałożenia kary na procedurę optymalizacji za „błądzenie zbyt daleko” od regionu, który naszym zdaniem jest najbardziej prawdopodobny.p ( θ , y )

p(x,y|θ)p(θ|x,y)
p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

Jeśli tak, to jestem bardzo zdezorientowany, ponieważ są zmiennymi losowymi, prawda? Aby zmaksymalizować wystarczy znaleźć ?x,y,θp(x,y|θ)θ^

W MLE przyjmuje się , że jest stałą wielkością, która jest nieznana, ale można ją wywnioskować, a nie zmienną losową. Wnioskowanie Bayesowskie traktuje jako zmienną losową. Funkcje gęstości prawdopodobieństwa Bayesa stawia wnioskowania w i dostaje funkcja gęstości prawdopodobieństwa na zewnątrz , zamiast podsumowania punktowych modelu, podobnie jak w MLE. Oznacza to, że wnioskowanie bayesowskie analizuje pełny zakres wartości parametrów i prawdopodobieństwo każdego z nich. MLE zakłada, że jest odpowiednim podsumowaniem danych dla danego modelu.θ^θθ^

Sycorax mówi Przywróć Monikę
źródło
1
Dziękuję za odpowiedź, aktualizuję swój post, zobacz moją aktualizację.
awokado
Ta aktualizacja radykalnie zmieniła moje rozumienie pytania. Początkowo myślałem, że traktujesz jako parametr, a jako swoje dane. Teraz wydaje się, że są dane i jesteś zainteresowany konstruowania model opisujący zależność między i . Zmodyfikuję swoją odpowiedź, jak będę miał czas. yx(x,y)xy
Sycorax mówi Przywróć Monikę
+1 To wciąż świetna odpowiedź: mam nadzieję, że pozostaniesz w dużej mierze nienaruszona, nawet jeśli zmodyfikujesz ją tak, aby pasowała do zmian w pytaniu.
whuber
Zaktualizowałem swoją odpowiedź, aby odzwierciedlić Twoje zaktualizowane pytanie. Mam nadzieję, że te szczegóły pomogą. Naprawdę polecam odwoływanie się do odniesień, o których wspominam. I mam nadzieję, że @whuber nadal się zgadza. ;-)
Sycorax mówi Przywróć Monikę
Bardzo dziękuję za aktualizację, więc masz na myśli, że chociaż wybrałem formę dystrybucji dla , powinienem traktować jako dane obserwowane, gdy próbuję oszacować ? p(y|x)x,yθ
awokado
3

Zwykle jest funkcją parametru . Rozważ następujące przeformułowanie twierdzenia Bayesa:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

Lub nawet bardziej precyzyjnie (w odniesieniu do pojęcia prawdopodobieństwa):

p(θ|x)=L(θ;x)p(θ)p(x)

Konkretnym przykładem jest model

X|θBinomial(θ)θBeta(α,β)
David Marks
źródło
Zwykle nie jest zmienną losową, ale , prawda? yx
awokado
Y jest zwykle parametrem na pdf X. W ustawieniach częstych y jest zwykle stałą wartością. W ustawieniu bayesowskim Y jest sama zmienną losową (jak w podanym przeze mnie przykładzie). X | Y może być również warunkowym prawdopodobieństwem w tym sensie, że chciałem dać ci motywację, dlaczego ta ilość jest nazywana prawdopodobieństwem.
David Marx,
Jeśli chodzi o konkretny przykład podany w odpowiedzi, czy masz na myśli, że jest w rzeczywistości zmienną losową, ale w rozkładzie jest brana jako parametr? θX
awokado
To, że coś jest zmienną losową, nie oznacza, że ​​nie może być parametrem. Witamy w cudownym świecie prawdopodobieństwa bayesowskiego :)
David Marx
0
  • „... nazywa się prawdopodobieństwem ...”p(x|y)

p(x|y) to prawdopodobieństwo y dla x . Ważne jest, aby powiedzieć, jakie jest prawdopodobieństwo. I tak, to tylko warunkowe prawdopodobieństwo danego .xy

  • „... jeśli te 2 zmienne losowe są niezależne, to to tylko , prawda? Zatem maksymalizacja polega na maksymalizacji ...”p(x|y)p(x)p(x|y)p(x)

Jeśli są one niezależne, tj. , jest stałe w stosunku do . Uważaj tutaj, ponieważ nie określasz, co maksymalizujesz w odniesieniu do - z tego, co napisałeś wcześniej, zakładam, że maksymalizujesz w odniesieniu do .p(x|y)=p(x)p(x)yy

  • ... A może jest funkcją niektórych parametrów , czyli , a MLE próbuje znaleźć która może zmaksymalizować ? Lub nawet, że y to w rzeczywistości parametry modelu, a nie zmienna losowa, maksymalizując prawdopodobieństwo znalezienia ? ...θ P ( x | y ; θ ) θ P ( x | y ) rp(x|y)θp(x|y;θ)θp(x|y)y^

Wprowadzenie sprawia, że ​​jest to zupełnie nowy problem. Ogólnie rzecz biorąc, odpowiedź na większość tego pytania wydaje się „zależeć”. Mogliśmy oznaczają parametry jak , jeśli chcieliśmy, i maksymalizacji w stosunku do nich. Równie dobrze moglibyśmy mieć sytuację, w której maksymalizujemy w odniesieniu do parametrów jeśli to rozsądny sposób podejścia do danego problemu.y p ( x | y ; θ ) θθyp(x|y;θ)θ

Poklepać
źródło
Powodem, dla którego przedstawiam jest to, że w książce dotyczącej uczenia maszynowego, którą czytam, otrzymałem zestaw danych , jest odpowiednią wartością docelową, więc aby dopasować model do tego zestawu danych, mogę użyć MLE do oszacowania jaki jest parametr modelu, prawda? x y θθxyθ
awokado
0

Z podręcznika STAN:

Jeśli wcześniejsze jest jednolite, tryb tylny odpowiada oszacowaniu maksymalnego prawdopodobieństwa (MLE) parametrów. Jeśli wcześniejsze nie jest jednolite, tryb tylny nazywany jest czasem maksimum oszacowania tylnego (MAP).

Neerav
źródło