Dlaczego maksymalne prawdopodobieństwo i nie oczekiwane prawdopodobieństwo?

22

Dlaczego tak często uzyskuje się szacunki maksymalnego prawdopodobieństwa parametrów, ale praktycznie nigdy nie słyszy się o szacunkach oczekiwanych parametrów prawdopodobieństwa (tj. Opartych raczej na wartości oczekiwanej niż trybie funkcji wiarygodności)? Czy dzieje się tak przede wszystkim z powodów historycznych, czy też z bardziej merytorycznych przyczyn technicznych lub teoretycznych?

Czy pojawienie się oczekiwanych prawdopodobieństw miałoby znaczące zalety i / lub wady, a nie maksymalne prawdopodobieństwo?

Czy istnieją pewne obszary, w których przewiduje szacunki prawdopodobieństwa rutynowo stosowane?

Jake Westfall
źródło
9
Oczekiwana wartość w odniesieniu do jakiego rozkładu prawdopodobieństwa? ML jest zwykle stosowany w analizach nie bayesowskich, w których (a) dane są podane (i ustalone) oraz (b) parametry są traktowane jako (nieznane) stałe: w ogóle nie ma zmiennych losowych.
whuber

Odpowiedzi:

15

Zaproponowana metoda (po znormalizowaniu prawdopodobieństwa bycia gęstością) jest równoważna z oszacowaniem parametrów za pomocą płaskiego wcześniejszego dla wszystkich parametrów w modelu i przy użyciu średniej rozkładu z tyłu jako estymatora. Zdarzają się przypadki, w których korzystanie z płaskiego przeora może wpaść w kłopoty, ponieważ nie kończy się to prawidłowym rozkładem w odcinku bocznym, więc nie wiem, w jaki sposób naprawiłbyś tę sytuację tutaj.

Jednak pozostawanie w kontekście częstym, metoda nie ma większego sensu, ponieważ prawdopodobieństwo nie stanowi gęstości prawdopodobieństwa w większości kontekstów i nie ma nic losowego, więc oczekiwanie nie ma większego sensu. Teraz możemy po prostu sformalizować to jako operację, którą zastosujemy do prawdopodobieństwa po fakcie uzyskania oszacowania, ale nie jestem pewien, jak wyglądałyby właściwości częstościowe tego estymatora (w przypadkach, w których oszacowanie faktycznie istnieje).

Zalety:

  • Może to zapewnić oszacowanie w niektórych przypadkach, w których MLE tak naprawdę nie istnieje.
  • Jeśli nie jesteś uparty, może przenieść cię do środowiska bayesowskiego (i prawdopodobnie byłby to naturalny sposób wnioskowania z tego rodzaju szacunkami). Ok, więc w zależności od twoich poglądów może to nie być zaletą - ale dla mnie.

Niedogodności:

  • Nie ma też gwarancji, że istnieje.
  • Jeśli nie mamy wypukłej przestrzeni parametrów, oszacowanie może nie być poprawną wartością parametru.
  • Proces ten nie jest niezmienny dla ponownej parametryzacji. Ponieważ proces jest równoznaczny z umieszczeniem płaskiego przed parametrami, robi to różnicę, jakie są te parametry (czy mówimy o użyciu jako parametru, czy też używamy )σ 2σσ2
Dason
źródło
7
+1 Jednym z ogromnych problemów związanych z przyjęciem jednolitego rozkładu parametrów jest to, że problemy ML są często przeformułowywane poprzez wykorzystanie niezmienności ich rozwiązań w zakresie ponownej parametryzacji: zmieniłoby to jednak wcześniejszy rozkład parametrów. Zatem przyjęcie „oczekiwania” tak, jakby parametry miały jednolity rozkład, jest arbitralnym artefaktem i może prowadzić do błędnych i bezsensownych wyników.
whuber
1
Słuszna uwaga! Chciałem też o tym wspomnieć, ale zapomniałem o tym wspominać pisząc resztę.
Dason
Dla przypomnienia, maksymalne prawdopodobieństwo również nie jest niezmienne dla reparametryzacji.
Neil G,
1
@NeilG Tak to jest? Może jednak odnosimy się do różnych pomysłów. Co masz na myśli mówiąc to?
Dason
Być może popełniłem błąd, ale załóżmy, że masz parametr reprezentujący prawdopodobieństwo . Dane indukują prawdopodobieństwo rozproszone w za pomocą parametrów . Jeśli zamiast tego sparametryzowałeś swój model za pomocą prawdopodobieństwa , te same dane wywołałyby prawdopodobieństwo pierwszej beta z parametrami . W pierwszym przypadku trybem jest ; w drugim przypadku trybem jest , co odpowiada prawdopodobieństwu . α = β = 2 o [ 0 , ) α = β = 2 1p[0,1]α=β=2o[0,)α=β=2 112 11314
Neil G
12

Jednym z powodów jest to, że oszacowanie maksymalnego prawdopodobieństwa jest łatwiejsze: ustawiasz pochodną prawdopodobieństwa wrt parametrów na zero i rozwiązujesz parametry. Przyjmowanie oczekiwań oznacza zintegrowanie czasów prawdopodobieństwa każdego parametru.

Innym powodem jest to, że w przypadku rodzin wykładniczych maksymalne oszacowanie prawdopodobieństwa odpowiada przyjęciu oczekiwań. Na przykład maksymalne prawdopodobieństwo, że punkty danych dopasowujące rozkład normalny oznaczają i drugi moment .μ = E ( x ) χ = E ( x 2 ){xi}μ=E(x)χ=E(x2)

W niektórych przypadkach parametr maksymalnego prawdopodobieństwa jest taki sam, jak parametr oczekiwanego prawdopodobieństwa. Na przykład, oczekiwana średnia prawdopodobieństwa powyższego rozkładu normalnego jest taka sama jak maksymalne prawdopodobieństwo, ponieważ uprzednia średnia jest normalna, a sposób i średnia rozkładu normalnego pokrywają się. Oczywiście nie będzie to prawdą w przypadku drugiego parametru (niezależnie od jego parametryzacji).

Myślę, że najważniejszym powodem jest prawdopodobnie dlaczego chcesz oczekiwać parametrów? Zazwyczaj uczysz się modelu, a wartości parametrów są wszystkim, czego potrzebujesz. Jeśli zamierzasz zwrócić jedną wartość, czy maksymalne prawdopodobieństwo nie jest najlepsze, co możesz zwrócić?

Neil G.
źródło
6
W odniesieniu do twojej ostatniej linii: Może - może nie. To zależy od twojej funkcji utraty. Właśnie bawiłem się pomysłem Jake'a i wydaje się, że w przypadku X ~ Unif (0, theta), że max (X) * (n-1) / (n-2), co daje metoda Jake'a, ma lepszą MSE niż max (X), który jest MLE (przynajmniej symulacje implikują to, gdy n> = 5). Oczywiście przykład Unif (0, theta) nie jest typowy, ale pokazuje, że istnieją inne wiarygodne metody uzyskiwania estymatorów.
Dason
4
@Dason Jedną standardową (i potężną) techniką częstokroć znajdującą dobre ( tj. Dopuszczalne) estymatory jest obliczanie estymatorów Bayesa dla różnych priorytetów. (Patrz np . Książka Lehmanna na temat szacowania punktów.) Właśnie odkryłeś jeden z takich oszacowań.
whuber
Dzięki za odpowiedź Neil! Mówisz, że uzyskiwanie oszacowań parametrów przez różnicowanie jest łatwiejsze w porównaniu do integracji, i z pewnością widzę, jak byłoby to prawdą w przypadku prostych problemów (np. Poziom pisma i papieru lub niezbyt daleko). Ale czy w przypadku znacznie bardziej skomplikowanych problemów, w których musimy polegać na metodach numerycznych, integracja może nie być łatwiejsza? W praktyce znalezienie MLE może stanowić dość trudny problem optymalizacji. Czy przybliżenie liczbowe całki nie może być łatwiejsze obliczeniowo? Czy jest to mało prawdopodobne w większości przypadków?
Jake Westfall
@JakeWestfall: Jak zamierzasz oczekiwać przestrzeni parametrów za pomocą metod numerycznych? W skomplikowanej przestrzeni modelu z ogromną przestrzenią parametrów nie można zintegrować całości, oceniając prawdopodobieństwo każdego modelu (ustawienie parametru). Zazwyczaj będziesz uruchamiać EM, dla którego estymacja parametru odbywa się w kroku M, tak aby każdy parametr był jednym z „prostych problemów”, jak mówisz, i dla którego parametry maksymalnego prawdopodobieństwa są bezpośrednimi oczekiwaniami wystarczających statystyk.
Neil G
@NeilG Cóż, Dason zwraca uwagę, że omawiana metoda jest (po normalizacji) równoważna estymacji Bayesa z płaską wcześniejszą, a następnie wykorzystującą średnią wartość szacunkową. W odpowiedzi na pytanie: „Jak zamierzasz oczekiwać przestrzeni parametrów za pomocą metod numerycznych?” Myślę, że myślałem, że możemy skorzystać z jednej z tych metod: bayesian-inference.com/numericalapproximation Masz jakieś przemyślenia na ten temat?
Jake Westfall
2

Takie podejście istnieje i nazywa się estymatorem minimalnego kontrastu. Przykład powiązanego dokumentu (i zobacz inne odniesienia od wewnątrz) https://arxiv.org/abs/0901.0655

Danila Doroshin
źródło