MLE = oszacowanie maksymalnego prawdopodobieństwa
MAP = Maksimum a posteriori
MLE jest intuicyjny / naiwny, ponieważ zaczyna się od prawdopodobieństwa obserwacji danego parametru (tj. Funkcji prawdopodobieństwa) i próbuje znaleźć parametr najlepiej zgodny z obserwacją . Ale nie bierze pod uwagę wcześniejszej wiedzy.
MAP wydaje się bardziej rozsądny, ponieważ bierze pod uwagę wcześniejszą znajomość zasady Bayesa.
Oto powiązane pytanie, ale odpowiedź nie jest dokładna. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d
Myślę więc, że MAP jest znacznie lepszy. Czy to prawda? A kiedy powinienem użyć którego?
źródło
Bayesian zgodziłby się z tobą, a częsty nie. Jest to kwestia opinii, perspektywy i filozofii. Myślę, że próba argumentowania, że jedna metoda jest zawsze lepsza od drugiej, jest bardzo szkodliwa dla społeczności statystyk. Wiele problemów będzie miało rozwiązania bayesowskie i częste, które są podobne, o ile Bayesian nie ma zbyt silnego z góry.
źródło
Zakładając, że masz dokładne wcześniejsze informacje, MAP jest lepszy, jeśli problem ma zerową funkcję straty w oszacowaniu. Jeśli strata nie jest równa zero (a w wielu rzeczywistych problemach nie jest), może się zdarzyć, że MLE osiągnie niższą oczekiwaną stratę. W takich przypadkach lepiej nie ograniczać się do MAP i MLE jako jedynych dwóch opcji, ponieważ oba są nieoptymalne.
źródło
Krótka odpowiedź @bean wyjaśnia to bardzo dobrze. Chciałbym jednak wskazać na sekcję 1.1 artykułu Gibbs Sampling dla niewtajemniczonych przez Resnika i Hardisty'ego, która przybliża sprawę do głębi. Piszę kilka wierszy z tego artykułu z bardzo niewielkimi modyfikacjami (odpowiedzi te powtarzają kilka rzeczy, które OP wie o kompletności)
MLE
MAPA
Łapać
Więc z tym haczykiem możemy nie chcieć użyć żadnego z nich. Ponadto, jak już wspomniano przez fasoli i Tim, jeśli trzeba użyć jednego z nich, stosowanie MAP jeśli masz przed. Jeśli nie masz priorytetów, MAP zmniejsza się do MLE. Sprzężone priory pomogą rozwiązać problem analitycznie, w przeciwnym razie użyj Gibbs Sampling.
źródło
Jak wiemy,θ^MAP=argmaxθlogP(θ|D)=argmaxθlogP(D|θ)P(θ)P(D)=argmaxθlogP(D|θ)P(θ)=argmaxθlogP(D|θ)log-likelihood+logP(θ)regularizer
Prior jest traktowany jako regularyzator i jeśli znasz wcześniejszy rozkład, na przykład Gaussin ( ) w regresji liniowej, i lepiej jest dodać regularyzacja dla lepszej wydajności.exp(−λ2θTθ)
źródło
Jeśli dane są mniejsze, a masz dostępne dane dotyczące priorytetów - „PRZEJDŹ NA MAPĘ”. Jeśli masz dużo danych, MAP zbiegnie się w MLE. Dlatego w przypadku wielu scenariuszy danych zawsze lepiej jest wykonać MLE niż MAP.
źródło