W twierdzeniu bayesowskim , a z książki, którą czytam, nazywa się prawdopodobieństwo , ale zakładam, że to tylko prawdopodobieństwo warunkowe od podane , prawda? p(x|y)xy
Do największej wiarygodności stara się maksymalizować , prawda? Jeśli tak, to jestem bardzo zdezorientowany, ponieważ są zmiennymi losowymi, prawda? Aby zmaksymalizować jest po prostu dowiedzieć się ? Jeszcze jeden problem, jeśli te 2 losowe zmienne są niezależne, to to tylko , prawda? Zatem maksymalizacja polega na maksymalizacji .x , y p ( x | y ) y p ( x | Y ) P ( x ) p ( x | Y ) P ( x )
A może jest funkcją niektórych parametrów , czyli , a MLE próbuje znaleźć która może zmaksymalizować ? Czy nawet, że jest w rzeczywistości parametrami modelu, a nie zmienną losową, maksymalizując prawdopodobieństwo znalezienia ?θ P ( x | y ; θ ) θ P ( x | y ) y y
AKTUALIZACJA
Jestem nowicjuszem w uczeniu maszynowym, a ten problem jest pomieszany z treściami, które przeczytałem z samouczka uczenia maszynowego. Oto on, biorąc pod uwagę obserwowany zestaw danych , wartości docelowe to , a ja staram się dopasować model do tego zestawu danych , więc zakładam, że biorąc pod uwagę , ma formę rozkładu o nazwie sparametryzowaną przez , czyli , i zakładam, że jest to prawdopodobieństwo późniejsze , prawda?{ Y 1 , Y 2 , . . . , y n } x y W θ p ( y | x ; θ )
Teraz, aby oszacować wartość , używam MLE. OK, nadchodzi mój problem, myślę, że prawdopodobieństwo to , prawda? Maksymalizacja prawdopodobieństwa oznacza, że powinienem wybrać właściwą i ?p ( x | y ; θ ) θ y
Jeśli moje rozumienie prawdopodobieństwa jest błędne, proszę wskazać mi właściwą drogę.
źródło
Odpowiedzi:
Myślę, że podstawowe nieporozumienie wynika z pytań, które zadajesz w pierwszej połowie pytania. Do tej odpowiedzi podchodzę jako kontrastujące MLE i Bayesowskie paradygmaty wnioskowania. Bardzo przystępną dyskusję na temat MLE można znaleźć w rozdziale 1 Gary'ego Kinga, Unifying Political Methodology. Analiza danych bayesowskich Gelmana może dostarczyć szczegółów po stronie bayesowskiej.
Prawdopodobieństwo jest prawdopodobieństwem warunkowym. Dla bayesowskiego wzór ten opisuje rozkład parametru dla danych i wcześniejszych . Ale ponieważ ta notacja nie odzwierciedla twojego zamiaru, odtąd będę używać ( , ) dla parametrów i dla twoich danych.x p ( y ) θ y xy x p(y) θ y x
Ale twoja aktualizacja wskazuje, że jest obserwowane z jakiejś dystrybucji . Jeśli umieścimy nasze dane i parametry w odpowiednich miejscach w regule Bayesa, okaże się, że te dodatkowe parametry nie stwarzają problemów dla Bayesianów: p ( x | θ , y ) p ( θ | x , y ) = p ( x , y | θ ) p ( θ )x p(x|θ,y)
Wierzę, że to wyrażenie jest tym, czego szukasz w swojej aktualizacji.
Tak. MLE zakłada, że Oznacza to, że traktuje termin jako nieznany (i niepoznawalna) stała. Natomiast wnioskowanie bayesowskie traktuje jako stałą normalizującą (tak, że prawdopodobieństwa sumują / całkują się do jedności), a jako kluczową informację: pierwszeństwo. Możemy myśleć o jako sposobie nałożenia kary na procedurę optymalizacji za „błądzenie zbyt daleko” od regionu, który naszym zdaniem jest najbardziej prawdopodobny.p ( θ , y )
W MLE przyjmuje się , że jest stałą wielkością, która jest nieznana, ale można ją wywnioskować, a nie zmienną losową. Wnioskowanie Bayesowskie traktuje jako zmienną losową. Funkcje gęstości prawdopodobieństwa Bayesa stawia wnioskowania w i dostaje funkcja gęstości prawdopodobieństwa na zewnątrz , zamiast podsumowania punktowych modelu, podobnie jak w MLE. Oznacza to, że wnioskowanie bayesowskie analizuje pełny zakres wartości parametrów i prawdopodobieństwo każdego z nich. MLE zakłada, że jest odpowiednim podsumowaniem danych dla danego modelu.θ^ θ θ^
źródło
Zwykle jest funkcją parametru . Rozważ następujące przeformułowanie twierdzenia Bayesa:p(x|y) y
Lub nawet bardziej precyzyjnie (w odniesieniu do pojęcia prawdopodobieństwa):
Konkretnym przykładem jest model
źródło
Jeśli są one niezależne, tj. , jest stałe w stosunku do . Uważaj tutaj, ponieważ nie określasz, co maksymalizujesz w odniesieniu do - z tego, co napisałeś wcześniej, zakładam, że maksymalizujesz w odniesieniu do .p(x|y)=p(x) p(x) y y
Wprowadzenie sprawia, że jest to zupełnie nowy problem. Ogólnie rzecz biorąc, odpowiedź na większość tego pytania wydaje się „zależeć”. Mogliśmy oznaczają parametry jak , jeśli chcieliśmy, i maksymalizacji w stosunku do nich. Równie dobrze moglibyśmy mieć sytuację, w której maksymalizujemy w odniesieniu do parametrów jeśli to rozsądny sposób podejścia do danego problemu.y p ( x | y ; θ ) θθ y p(x|y;θ) θ
źródło
Z podręcznika STAN:
źródło