Oszacowanie MLE a MAP, kiedy użyć którego?

14

MLE = oszacowanie maksymalnego prawdopodobieństwa

MAP = Maksimum a posteriori

MLE jest intuicyjny / naiwny, ponieważ zaczyna się od prawdopodobieństwa obserwacji danego parametru (tj. Funkcji prawdopodobieństwa) i próbuje znaleźć parametr najlepiej zgodny z obserwacją . Ale nie bierze pod uwagę wcześniejszej wiedzy.

MAP wydaje się bardziej rozsądny, ponieważ bierze pod uwagę wcześniejszą znajomość zasady Bayesa.

Oto powiązane pytanie, ale odpowiedź nie jest dokładna. /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d

Myślę więc, że MAP jest znacznie lepszy. Czy to prawda? A kiedy powinienem użyć którego?

machine-learning bayesian estimation maximum-likelihood inference smwikipedia
źródło

18

Jeśli w ramach konfiguracji problemu podano wcześniejsze prawdopodobieństwo, skorzystaj z tej informacji (tj. Użyj MAP). Jeśli nie podano ani nie przyjęto takich wcześniejszych informacji, MAP nie jest możliwy, a MLE jest rozsądnym podejściem.

fasola
źródło

9

Warto dodać, że MAP z płaskimi priorytetami jest równoważny użyciu ML.

Tim

Warto również zauważyć, że jeśli chcesz matematycznie „wygodnego” przeora, możesz użyć sprzężonego przeora, jeśli taki istnieje w twojej sytuacji.

fasola

8

Bayesian zgodziłby się z tobą, a częsty nie. Jest to kwestia opinii, perspektywy i filozofii. Myślę, że próba argumentowania, że jedna metoda jest zawsze lepsza od drugiej, jest bardzo szkodliwa dla społeczności statystyk. Wiele problemów będzie miało rozwiązania bayesowskie i częste, które są podobne, o ile Bayesian nie ma zbyt silnego z góry.

jsk
źródło

7

To nie jest tylko kwestia opinii. Istnieją określone sytuacje, w których jeden estymator jest lepszy od drugiego.

Tom Minka

2

@TomMinka Nigdy nie powiedziałem, że nie ma sytuacji, w których jedna metoda jest lepsza od drugiej! Po prostu odpowiedziałem na ogólne stwierdzenia PO, takie jak: „MAP wydaje się bardziej rozsądny”. Takie stwierdzenie jest równoznaczne z twierdzeniem, że metody bayesowskie są zawsze lepsze, co jest stwierdzeniem, z którym ty i ja najwyraźniej się nie zgadzacie.

jsk

żart ma rację. Podejścia bayesowskie i częste są odmienne filozoficznie. Dlatego surowi częstokrzydzi uznaliby podejście bayesowskie za niedopuszczalne.

Michael R. Chernick

2

Zakładając, że masz dokładne wcześniejsze informacje, MAP jest lepszy, jeśli problem ma zerową funkcję straty w oszacowaniu. Jeśli strata nie jest równa zero (a w wielu rzeczywistych problemach nie jest), może się zdarzyć, że MLE osiągnie niższą oczekiwaną stratę. W takich przypadkach lepiej nie ograniczać się do MAP i MLE jako jedynych dwóch opcji, ponieważ oba są nieoptymalne.

Tom Minka
źródło

Estymator MAP, jeśli parametr zależy od parametryzacji, podczas gdy strata „0-1” nie. 0-1 w cudzysłowie, ponieważ według moich obliczeń wszystkie estymatory zwykle dają stratę 1 z prawdopodobieństwem 1, a każda próba skonstruowania aproksymacji ponownie wprowadza problem parametryzacji

facet

1

Moim zdaniem strata zerowa zależy od parametryzacji, więc nie ma niespójności.

Tom Minka

0

Krótka odpowiedź @bean wyjaśnia to bardzo dobrze. Chciałbym jednak wskazać na sekcję 1.1 artykułu Gibbs Sampling dla niewtajemniczonych przez Resnika i Hardisty'ego, która przybliża sprawę do głębi. Piszę kilka wierszy z tego artykułu z bardzo niewielkimi modyfikacjami (odpowiedzi te powtarzają kilka rzeczy, które OP wie o kompletności)

MLE

Formalnie MLE dokonuje wyboru (parametru modelu), który najprawdopodobniej wygeneruje zaobserwowane dane.

MAPA

Oszacowany MAP to wybór, który najprawdopodobniej wynika z zaobserwowanych danych. W przeciwieństwie do MLE, estymacja MAP stosuje Regułę Bayesa, dzięki czemu nasze szacunki mogą uwzględniać wcześniejszą wiedzę na temat tego, czego oczekujemy od naszych parametrów w postaci wcześniejszego rozkładu prawdopodobieństwa.

Łapać

Oszacowania MLE i MAP dają nam najlepsze oszacowanie, zgodnie z ich odpowiednimi definicjami „najlepszego”. Zauważ jednak, że użycie jednego oszacowania - czy to MLE, czy MAP - wyrzuca informacje. Zasadniczo parametr może mieć dowolną wartość (z domeny); czy nie uzyskalibyśmy lepszych oszacowań, gdybyśmy wzięli pod uwagę cały rozkład, a nie tylko pojedynczą oszacowaną wartość parametru? Jeśli to zrobimy, wykorzystamy wszystkie informacje o parametrze, które możemy wykasować z obserwowanych danych, X.

Więc z tym haczykiem możemy nie chcieć użyć żadnego z nich. Ponadto, jak już wspomniano przez fasoli i Tim, jeśli trzeba użyć jednego z nich, stosowanie MAP jeśli masz przed. Jeśli nie masz priorytetów, MAP zmniejsza się do MLE. Sprzężone priory pomogą rozwiązać problem analitycznie, w przeciwnym razie użyj Gibbs Sampling.

Gaurav Singhal
źródło

0

Jak wiemy,

\begin{aligned} {\hat{θ}}^{M A P} & = \arg max_{\begin{matrix} θ \end{matrix}} \log P (θ | D) \\ = \arg max_{\begin{matrix} θ \end{matrix}} \log \frac{P (D | θ) P (θ)}{P (D)} \\ = \arg max_{\begin{matrix} θ \end{matrix}} \log P (D | θ) P (θ) \\ = \arg max_{\begin{matrix} θ \end{matrix}} \underset{log-likelihood}{\underset{⏟}{\log P (D | θ)}} + \underset{regularizer}{\underset{⏟}{\log P (θ)}} \end{aligned}

$\begin{equation}\begin{aligned} \hat\theta^{MAP}&=\arg \max\limits_{\substack{\theta}} \log P(\theta|\mathcal{D})\\ &= \arg \max\limits_{\substack{\theta}} \log \frac{P(\mathcal{D}|\theta)P(\theta)}{P(\mathcal{D})}\\ &=\arg \max\limits_{\substack{\theta}} \log P(\mathcal{D}|\theta)P(\theta) \\ &=\arg \max\limits_{\substack{\theta}} \underbrace{\log P(\mathcal{D}|\theta)}_{\text{log-likelihood}}+ \underbrace{\log P(\theta)}_{\text{regularizer}} \end{aligned}\end{equation}$

Prior jest traktowany jako regularyzator i jeśli znasz wcześniejszy rozkład, na przykład Gaussin ( ) w regresji liniowej, i lepiej jest dodać regularyzacja dla lepszej wydajności. $\exp(-\frac{\lambda}{2}\theta^T\theta)$

Lerner Zhang
źródło

-2

Jeśli dane są mniejsze, a masz dostępne dane dotyczące priorytetów - „PRZEJDŹ NA MAPĘ”. Jeśli masz dużo danych, MAP zbiegnie się w MLE. Dlatego w przypadku wielu scenariuszy danych zawsze lepiej jest wykonać MLE niż MAP.

Heisenbug
źródło

1

To nie jest takie proste.

Michael R. Chernick

@MichaelChernick Mogę się mylić. Przeczytałem to w szkole. Proszę o poprawienie mnie tam, gdzie popełniłem błąd.

Heisenbug

Podejście częstokrzyskie i podejście bayesowskie są filozoficznie różne. Metoda częstotliwościowa szacuje wartość parametrów modelu na podstawie powtarzanego próbkowania. Podejście bayesowskie traktuje parametr jako zmienną losową. Tak więc w podejściu bayesowskim wyprowadzasz tylny rozkład parametru łącząc wcześniejszy rozkład z danymi. MAP szuka najwyższego piku rozkładu tylnego, podczas gdy MLE szacuje parametr, patrząc tylko na funkcję prawdopodobieństwa danych.

Michael R. Chernick

@MichaelChernick - Dziękujemy za wkład. Ale czy MAP nie zachowuje się jak MLE, gdy mamy wystarczające dane. Jeśli złamiemy wyrażenie MAP, otrzymamy również termin MLE. Przy dużej ilości danych termin MLE w MAP przejmuje pierwszeństwo.

Heisenbug

To zależy od wcześniejszego i ilości danych. Mogą dać podobne wyniki w dużych próbkach. Różnica polega na interpretacji. Mój komentarz miał pokazać, że nie jest to tak proste, jak to robisz. Przy małej ilości danych nie jest tylko kwestia wybrania MAP, jeśli masz wcześniej. Źle wybrany przeor może prowadzić do złego rozmieszczenia tylnej, a tym samym słabej MAP.

Michael R. Chernick

Oszacowanie MLE a MAP, kiedy użyć którego?

Odpowiedzi: