Chodzi o to, że czasami różne modele (dla tych samych danych) mogą prowadzić do funkcji prawdopodobieństwa, które różnią się stałą multiplikatywną, ale treść informacji musi być wyraźnie taka sama. Przykład:
Modelujemy niezależnych eksperymentów Bernoulliego, prowadzących do danych , każdy z rozkładem Bernoulliego z parametrem (prawdopodobieństwa) . Prowadzi to do funkcji prawdopodobieństwa
Lub możemy podsumować dane przez zmienną dwumianową , który ma rozkład dwumianowy, co prowadzi do funkcji prawdopodobieństwa
która jako funkcja nieznanego parametru jest proporcjonalna do poprzedniej funkcji prawdopodobieństwa . Dwie funkcje wiarygodności wyraźnie zawierają te same informacje i powinny prowadzić do tych samych wniosków!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
I rzeczywiście, z definicji są one uważane za tę samą funkcję prawdopodobieństwa.
Kolejny punkt widzenia: zauważ, że gdy w rachunku Bayesa używane są funkcje prawdopodobieństwa, co jest potrzebne do analizy bayesowskiej, takie multiplikatywne stałe po prostu kasują! więc są one wyraźnie nieistotne dla wnioskowania bayesowskiego. Podobnie, anuluje się przy obliczaniu ilorazów wiarygodności, stosowanych w optymalnych testach hipotez (lemat Neymana-Pearsona). I nie będzie miało wpływu na wartość estymatorów maksymalnego prawdopodobieństwa. Widzimy więc, że w wielu wnioskach częstych nie może odgrywać żadnej roli.
Możemy się kłócić z jeszcze innego punktu widzenia. Funkcja prawdopodobieństwa Bernoulliego (dalej używamy terminu „gęstość”) powyżej jest tak naprawdę gęstością w odniesieniu do miary zliczania, to jest miary liczb całkowitych nieujemnych o masie jeden dla każdej liczby całkowitej nieujemnej. Ale moglibyśmy zdefiniować gęstość w odniesieniu do innej dominującej miary. W tym przykładzie będzie to wydawać się (i jest) sztuczne, ale w większych przestrzeniach (przestrzeniach funkcyjnych) jest to naprawdę fundament! Dla celów ilustracji użyjmy określonego rozkładu geometrycznego, zapisanego , z , , i wkrótce. Następnie gęstość rozkładu Bernoulliego w odniesieniu doλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = s x ( 1 - p ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λjest podane przez
co oznacza, że
Z tą nową, dominującą miarą funkcja prawdopodobieństwa staje się (z notacją z góry)
zwróć uwagę na dodatkowy czynnik . Tak więc przy zmianie miary dominującej stosowanej w definicji funkcji prawdopodobieństwa powstaje nowa stała multiplikatywna, która nie zależy od nieznanego parametrufλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i = 1npxja( 1 - p )1 - xja2)xja+ 1= py( 1 - p )n - y2)y+ n
2)y+ npi jest wyraźnie nieistotny. To kolejny sposób na sprawdzenie, jak stałe multiplikatywne muszą być nieistotne. Argument ten można uogólnić za pomocą pochodnych Radon-Nikodym (jako argument powyżej jest przykładem.)
Zasadniczo oznacza to, że liczy się tylko względna wartość pliku PDF. Na przykład standardowy normalny (gaussowski) plik PDF to: , twoja książka mówi, że mogą użyć , ponieważ nie dbają o skalę, tj. .g(x)=e-x2/2c=1fa( x ) = 12 π√mi- x2)/ 2 sol( x ) = e- x2)/ 2 c = 12 π√
Dzieje się tak dlatego, że funkcja maksymalnego prawdopodobieństwa i i będą mieć ten sam maksymalny. Stąd maksimum będzie takie samo jak dla . Więc nie przejmują się skalą.g ( x ) e - x 2 / 2 F ( x )c ⋅ g( x ) sol( x ) mi- x2)/ 2 fa( x )
źródło
Nie mogę wyjaśnić znaczenia cytatu, ale dla oszacowania maksymalnego prawdopodobieństwa nie ma znaczenia, czy zdecydujemy się znaleźć maksimum funkcji prawdopodobieństwa (traktowanej jako funkcja lub maksimum gdzie jest pewną stałą. Jest tak, ponieważ nie interesuje nas maksymalna wartość a raczej wartość gdzie występuje to maksimum, a zarówno i osiągają maksymalną wartość przy tym samym θ a L ( x ; θ ) a L ( x ; θ ) θ ML L ( x ; θ ) a L ( x ; θ ) θ ML g ( ⋅ ) L ( x ; θ ) g ( L ( x ; θ ) ) θ ML a lnL ( x ; θ ) θ a L ( x ; θ ) za L ( x ; θ ) θML L ( x ; θ ) a L ( x ; θ ) θML . Stałe multiplikatywne można więc zignorować. Podobnie, możemy wybrać dowolną funkcję monotoniczną
(taką jak logarytm) funkcji wiarygodności , określić maksimum i wywnioskuj z tego wartość
. Dla logarytmu stała multiplikatywna
staje się stałą addytywną i to również można zignorować w procesie znajdowania położenia maksimum:
jest zmaksymalizowane w tym samym punkcie co .sol( ⋅ ) L ( x ; θ ) sol( L ( x ; θ ) ) θML za ln( ) ln( a ) + ln( L ( x ; θ ) ln( L ( x ; θ )
Przechodząc do maksymalnej oceny prawdopodobieństwa a posteriori (MAP), jest uważana za realizację zmiennej losowej z funkcją gęstości a priori , dane są uważane za realizację zmienna losowa , a funkcja prawdopodobieństwa jest uważana za wartość gęstości warunkowej z uwarunkowanej na ; wspomniana funkcja gęstości warunkowej jest oceniana w . Theθ Θ faΘ( θ ) x X faX ∣Θ( x ∣ Θ = θ ) X Θ = θ x gęstość a posteriori dla wynosi
w którym rozpoznajemy licznik jako łączną gęstość danych i szacowanego parametru. Punkt gdzie
osiąga maksymalną wartość, jest oszacowaniem MAP , i przy użyciu tych samych argumentów jak w akapicie widzimy, że możemy zignorować po prawej stronieΘ f
źródło
Mówiąc ogólnie, często szukasz maksymalnego prawdopodobieństwa, a i dzielą te same punkty krytyczne.fa( x ) k f( x )
źródło
Sugerowałbym, aby nie pomijać żadnych stałych terminów w funkcji prawdopodobieństwa (tj. Terminów, które nie zawierają parametrów). W zwykłych okolicznościach nie wpływają one na prawdopodobieństwa, jak już wspomniano. Ale:argmax
Mogą zaistnieć niezwykłe okoliczności, kiedy będziesz musiał zmaksymalizować prawdopodobieństwo z zastrzeżeniem pułapu - a wtedy powinieneś „pamiętać” o uwzględnieniu jakichkolwiek stałych w obliczeniach jego wartości.
Ponadto możesz przeprowadzać testy wyboru modelu dla modeli nie zagnieżdżonych, wykorzystując wartość prawdopodobieństwa w procesie - a ponieważ modele nie są zagnieżdżone, dwa prawdopodobieństwa będą miały różne stałe.
Poza tym zdanie
jest źle , bo prawdopodobieństwo jest pierwszy wspólna funkcja gęstości prawdopodobieństwa , a nie tylko „any” funkcja celu mają być zmaksymalizowane.
źródło