Wykonując regresję, jeśli zastosujemy definicję z: Jaka jest różnica między częściowym prawdopodobieństwem, prawdopodobieństwem profilu i prawdopodobieństwem krańcowym?
że, maksymalne prawdopodobieństwo
Znajdź β i θ, które maksymalizuje L (β, θ | dane).
Chociaż, Krańcowa Prawdopodobieństwo
Integrujemy się θ z równania prawdopodobieństwa, wykorzystując fakt, że możemy zidentyfikować rozkład prawdopodobieństwa θ uwarunkowane beta.
Jaka jest lepsza metodologia do maksymalizacji i dlaczego?
źródło
Sam zmagam się teraz z tym pytaniem. Oto wynik, który może być pomocny. Rozważ model liniowy
gdzie oraz i są parametrami będącymi przedmiotem zainteresowania. Wspólne prawdopodobieństwo toy∈Rn,β∈Rp, β σ2
Optymalizacja wspólnego prawdopodobieństwa daje plony
gdzie jest pseudoinwersją a jest dopasowanym wektorem resztkowym. Zauważ, że w mamy zamiast znanego stosunku skorygowanego o stopień swobody . O tym estymatorze wiadomo, że jest stronniczy w przypadku próbki skończonej.X+ X r=y−Xβ^ σ^2 1/n 1/(n−p)
Załóżmy teraz, że zamiast optymalizować zarówno i , integrujemy out i szacujemy na podstawie wynikowego zintegrowanego prawdopodobieństwa:β σ2 β σ2
Używając elementarnej algebry liniowej i wzoru na całkę Gaussa, możesz to pokazać
Ma to korektę stopni swobody, co czyni ją bezstronną i ogólnie preferowaną w stosunku do wspólnego oszacowania ML.
Na podstawie tego wyniku można zapytać, czy istnieje coś z natury korzystnego w zintegrowanym prawdopodobieństwie, ale nie znam żadnych ogólnych wyników, które mogłyby odpowiedzieć na to pytanie. Wydaje się, że konsensus jest taki, że zintegrowane ML lepiej radzi sobie z niepewnością w większości problemów z szacunkami. W szczególności, jeśli szacujesz wielkość, która zależy od innych oszacowań parametrów (nawet pośrednio), wówczas integracja z innymi parametrami lepiej uwzględni ich niepewności.
źródło
Zwykle nie jest to kwestia wyboru. Jeśli jesteśmy zainteresowani oszacowaniem (np. Gdy jest hiperparametrem modelu, a jest zmienną utajoną) i nie ma jednej wartości dla a zamiast tego znany jest rozkład , musimy zintegrować . Można myśleć o krańcowym prawdopodobieństwie jako o średniej ważonej prawdopodobieństwa dla różnych wartości ważonej ich gęstością prawdopodobieństwa . Teraz, gdy zniknęła, używając próbek treningowych jako , możesz zoptymalizować marginalną wiarygodność wrtβ θ θ θ θ θ i p ( θ i )β β θ θ θ θ θi p(θi) θ data β .
źródło