Który z nich jest lepszy maksymalnym prawdopodobieństwem lub marginalnym prawdopodobieństwem i dlaczego?

13

Wykonując regresję, jeśli zastosujemy definicję z: Jaka jest różnica między częściowym prawdopodobieństwem, prawdopodobieństwem profilu i prawdopodobieństwem krańcowym?

że, maksymalne prawdopodobieństwo
Znajdź β i θ, które maksymalizuje L (β, θ | dane).

Chociaż, Krańcowa Prawdopodobieństwo
Integrujemy się θ z równania prawdopodobieństwa, wykorzystując fakt, że możemy zidentyfikować rozkład prawdopodobieństwa θ uwarunkowane beta.

Jaka jest lepsza metodologia do maksymalizacji i dlaczego?

Ankit Chiplunkar
źródło

Odpowiedzi:

14

Każdy z nich da inne wyniki z inną interpretacją. Pierwszy znajduje parę , \ theta, która jest najbardziej prawdopodobna, podczas gdy druga znajduje \ beta, która jest (marginalnie) najbardziej prawdopodobna. Wyobraź sobie, że Twoja dystrybucja wygląda następująco:θ ββθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Zatem maksymalna odpowiedź prawdopodobieństwa wynosi ( ), natomiast maksymalna odpowiedź krańcowego prawdopodobieństwa wynosi (ponieważ, marginalizując ponad , ).β=1θ=3β=2θP(β=2)=0.6

Powiedziałbym, że ogólnie rzecz biorąc, marginalne prawdopodobieństwo jest często tym, czego chcesz - jeśli naprawdę nie zależy ci na wartościach parametrów , powinieneś po prostu zawalić się nad nimi. Ale prawdopodobnie w praktyce metody te nie przyniosą bardzo różnych wyników - jeśli tak, to może wskazywać na pewną niestabilność w twoim rozwiązaniu, np. Wiele trybów z różnymi kombinacjami , które dają podobne prognozy.θβθ

Chris
źródło
Znalazłem różne wyniki dla metod maksymalnego / krańcowego prawdopodobieństwa i stąd pytanie. Powiedziałbym, że dwa wyniki w moim przypadku dają różne interpretacje, ale możliwe wyniki.
Ankit Chiplunkar
5

Sam zmagam się teraz z tym pytaniem. Oto wynik, który może być pomocny. Rozważ model liniowy

y=Xβ+ϵ,ϵN(0,σ2)

gdzie oraz i są parametrami będącymi przedmiotem zainteresowania. Wspólne prawdopodobieństwo toyRn,βRp,βσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Optymalizacja wspólnego prawdopodobieństwa daje plony

β^=X+y

σ^2=1n||r||2

gdzie jest pseudoinwersją a jest dopasowanym wektorem resztkowym. Zauważ, że w mamy zamiast znanego stosunku skorygowanego o stopień swobody . O tym estymatorze wiadomo, że jest stronniczy w przypadku próbki skończonej.X+Xr=yXβ^σ^21/n1/(np)

Załóżmy teraz, że zamiast optymalizować zarówno i , integrujemy out i szacujemy na podstawie wynikowego zintegrowanego prawdopodobieństwa:βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

Używając elementarnej algebry liniowej i wzoru na całkę Gaussa, możesz to pokazać

σ^2=1np||r||2

Ma to korektę stopni swobody, co czyni ją bezstronną i ogólnie preferowaną w stosunku do wspólnego oszacowania ML.

Na podstawie tego wyniku można zapytać, czy istnieje coś z natury korzystnego w zintegrowanym prawdopodobieństwie, ale nie znam żadnych ogólnych wyników, które mogłyby odpowiedzieć na to pytanie. Wydaje się, że konsensus jest taki, że zintegrowane ML lepiej radzi sobie z niepewnością w większości problemów z szacunkami. W szczególności, jeśli szacujesz wielkość, która zależy od innych oszacowań parametrów (nawet pośrednio), wówczas integracja z innymi parametrami lepiej uwzględni ich niepewności.

Paweł
źródło
1
To jest interesujące. Trochę mnie jednak niepokoi fakt, że „integrowanie out ” używa nieprawidłowego rozkładu krańcowego, a także brak jakiegokolwiek pozornego uzasadnienia dla zastosowania tego (niewłaściwego) marginesu w porównaniu do innych. Jakie masz przemyślenia na temat tych problemów? β
whuber
1
@ whuber Podzielam twoje obawy i nie mam gotowej odpowiedzi, ale zauważ, że prawdopodobieństwo marginalizacji jest tylko późniejsze z jednolitym niewłaściwym wcześniejszym na , więc myślę, że jest to związane z „obiektywnym bayesowskim” podejściem. Nie przejmuje się tym, że parametr taki jak ma niewłaściwą wcześniejszą dystrybucję, o ile tylny jest całkowalny. ββ
Paul
Właściwie, w oparciu o ten post i komentarze w nim, myślę, że zintegrowane ML, a nie marginalne ML, jest właściwym terminem na to, co tu robimy. Odpowiednio zredagowane.
Paul
1
+1 Wiem, że spóźniłem się na tę imprezę, ale nie integruję ustalonych efektów przez umieszczenie na nich niewłaściwego munduru dokładnie tak, jak robi REML, więc właśnie otrzymałeś oszacowanie REML i ta korekta df jest dokładnie dlaczego tutaj REML jest lepszy dla mniejszych próbek?
jdl
@Chaconne tak, ten post był motywowany próbą zrozumienia REML! Nie mam (prawie) formalnej edukacji statystycznej, więc czerpanie tego było dla mnie zupełnie nowe.
Paul
4

Zwykle nie jest to kwestia wyboru. Jeśli jesteśmy zainteresowani oszacowaniem (np. Gdy jest hiperparametrem modelu, a jest zmienną utajoną) i nie ma jednej wartości dla a zamiast tego znany jest rozkład , musimy zintegrować . Można myśleć o krańcowym prawdopodobieństwie jako o średniej ważonej prawdopodobieństwa dla różnych wartości ważonej ich gęstością prawdopodobieństwa . Teraz, gdy zniknęła, używając próbek treningowych jako , możesz zoptymalizować marginalną wiarygodność wrtβ θ θ θ θ θ i p ( θ i )ββθθθθθip(θi)θdataβ.

Seeda
źródło