Dlaczego tak często uzyskuje się szacunki maksymalnego prawdopodobieństwa parametrów, ale praktycznie nigdy nie słyszy się o szacunkach oczekiwanych parametrów prawdopodobieństwa (tj. Opartych raczej na wartości oczekiwanej niż trybie funkcji wiarygodności)? Czy dzieje się tak przede wszystkim z powodów historycznych, czy też z bardziej merytorycznych przyczyn technicznych lub teoretycznych?
Czy pojawienie się oczekiwanych prawdopodobieństw miałoby znaczące zalety i / lub wady, a nie maksymalne prawdopodobieństwo?
Czy istnieją pewne obszary, w których przewiduje szacunki prawdopodobieństwa są rutynowo stosowane?
probability
mathematical-statistics
maximum-likelihood
optimization
expected-value
Jake Westfall
źródło
źródło
Odpowiedzi:
Zaproponowana metoda (po znormalizowaniu prawdopodobieństwa bycia gęstością) jest równoważna z oszacowaniem parametrów za pomocą płaskiego wcześniejszego dla wszystkich parametrów w modelu i przy użyciu średniej rozkładu z tyłu jako estymatora. Zdarzają się przypadki, w których korzystanie z płaskiego przeora może wpaść w kłopoty, ponieważ nie kończy się to prawidłowym rozkładem w odcinku bocznym, więc nie wiem, w jaki sposób naprawiłbyś tę sytuację tutaj.
Jednak pozostawanie w kontekście częstym, metoda nie ma większego sensu, ponieważ prawdopodobieństwo nie stanowi gęstości prawdopodobieństwa w większości kontekstów i nie ma nic losowego, więc oczekiwanie nie ma większego sensu. Teraz możemy po prostu sformalizować to jako operację, którą zastosujemy do prawdopodobieństwa po fakcie uzyskania oszacowania, ale nie jestem pewien, jak wyglądałyby właściwości częstościowe tego estymatora (w przypadkach, w których oszacowanie faktycznie istnieje).
Zalety:
Niedogodności:
źródło
Jednym z powodów jest to, że oszacowanie maksymalnego prawdopodobieństwa jest łatwiejsze: ustawiasz pochodną prawdopodobieństwa wrt parametrów na zero i rozwiązujesz parametry. Przyjmowanie oczekiwań oznacza zintegrowanie czasów prawdopodobieństwa każdego parametru.
Innym powodem jest to, że w przypadku rodzin wykładniczych maksymalne oszacowanie prawdopodobieństwa odpowiada przyjęciu oczekiwań. Na przykład maksymalne prawdopodobieństwo, że punkty danych dopasowujące rozkład normalny oznaczają i drugi moment .μ = E ( x ) χ = E ( x 2 ){ xja} μ = E( x ) χ = E( x2))
W niektórych przypadkach parametr maksymalnego prawdopodobieństwa jest taki sam, jak parametr oczekiwanego prawdopodobieństwa. Na przykład, oczekiwana średnia prawdopodobieństwa powyższego rozkładu normalnego jest taka sama jak maksymalne prawdopodobieństwo, ponieważ uprzednia średnia jest normalna, a sposób i średnia rozkładu normalnego pokrywają się. Oczywiście nie będzie to prawdą w przypadku drugiego parametru (niezależnie od jego parametryzacji).
Myślę, że najważniejszym powodem jest prawdopodobnie dlaczego chcesz oczekiwać parametrów? Zazwyczaj uczysz się modelu, a wartości parametrów są wszystkim, czego potrzebujesz. Jeśli zamierzasz zwrócić jedną wartość, czy maksymalne prawdopodobieństwo nie jest najlepsze, co możesz zwrócić?
źródło
Takie podejście istnieje i nazywa się estymatorem minimalnego kontrastu. Przykład powiązanego dokumentu (i zobacz inne odniesienia od wewnątrz) https://arxiv.org/abs/0901.0655
źródło