Szacowanie maksymalnego prawdopodobieństwa - dlaczego jest używane, mimo że w wielu przypadkach jest stronnicze

25

Szacowanie maksymalnego prawdopodobieństwa często skutkuje tendencyjnymi estymatorami (np. Jego oszacowanie dla wariancji próby jest tendencyjne dla rozkładu Gaussa).

Co zatem sprawia, że ​​jest tak popularny? Dlaczego dokładnie jest tak często używany? Co w szczególności czyni go lepszym niż alternatywne podejście - metoda chwil?

Zauważyłem również, że dla Gaussa proste skalowanie estymatora MLE czyni go bezstronnym. Dlaczego to skalowanie nie jest standardową procedurą? Mam na myśli - Dlaczego po obliczeniach MLE nie jest rutynowe znalezienie niezbędnego skalowania, aby estymator był bezstronny? Standardową praktyką wydaje się być zwykłe obliczenie oszacowań MLE, z wyjątkiem oczywiście dobrze znanego przypadku Gaussa, w którym współczynnik skalowania jest dobrze znany.

Minaj
źródło
11
Istnieje wiele, wiele alternatyw dla ML, nie tylko metoda momentów - która, nawiasem mówiąc, ma tendencję do tworzenia stronniczych estymatorów. Zamiast tego możesz zapytać: „dlaczego ktokolwiek miałby chcieć użyć obiektywnego oszacowania?” Dobrym sposobem na rozpoczęcie badań nad tym zagadnieniem jest poszukiwanie kompromisu wariancji uprzedzeń .
whuber
7
Jak zauważył whuber, nie ma wewnętrznej wyższości w byciu obiektywnym.
Xi'an
4
Myślę, że @whuber znaczy „dlaczego ktokolwiek miałby chcieć użyć stronniczości estymatora?” Przekonanie kogoś, że obiektywny szacownik może być rozsądny, nie wymaga wiele pracy.
Cliff AB
5
Zobacz en.wikipedia.org/wiki/…, gdzie znajduje się przykład, w którym jedynym obiektywnym estymatorem z pewnością nie jest taki, którego chcesz użyć.
Scortchi - Przywróć Monikę
4
@Cliff Chciałem zadać pytanie w bardziej prowokującej, potencjalnie bardziej tajemniczej formie. Czai się za tym pomysł, że istnieje wiele sposobów oceny jakości estymatora, a wiele z nich nie ma nic wspólnego z uprzedzeniami. Z tego punktu widzenia najbardziej naturalne jest pytanie, dlaczego ktoś zaproponowałby obiektywny szacunek. Zobacz odpowiedź glen_b, aby uzyskać więcej z tego punktu widzenia.
whuber

Odpowiedzi:

18

Sama bezstronność niekoniecznie jest szczególnie ważna.

Poza bardzo ograniczonym zestawem okoliczności, najbardziej przydatne estymatory są stronnicze, jednak są uzyskiwane.

Jeśli dwa estymatory mają tę samą wariancję, można z łatwością postawić argument za preferowaniem obiektywnego bez uprzedzenia, ale jest to niezwykła sytuacja (to znaczy, można rozsądnie preferować bezstronność, ceteris paribus - ale te nieznośne ceteris prawie nigdy nie są paribusem ).

Częściej, jeśli chcesz obiektywności, dodasz pewną wariancję, aby ją zdobyć, a wtedy pytanie brzmi: dlaczego to zrobiłbyś ?

Odchylenie jest tym, jak daleko oczekiwana wartość mojego estymatora będzie średnio zbyt wysoka (z ujemnym odchyleniem wskazującym zbyt niskie).

Kiedy zastanawiam się nad estymatorem małej próbki, tak naprawdę nie obchodzi mnie to. Zwykle bardziej interesuje mnie, jak bardzo błędny będzie mój estymator w tym przypadku - moja typowa odległość od prawej ... coś w rodzaju błędu średniej kwadratowej lub średniego błędu bezwzględnego miałoby większy sens.

Więc jeśli lubisz niską wariancję i niską stronniczość, poproś o powiedzenie a sensowne byłoby oszacowanie błędu minimalnego średniego kwadratu ; są to bardzo rzadko obiektywne.

Odchylenie i bezstronność jest użytecznym pojęciem, o którym należy pamiętać, ale nie jest to szczególnie przydatna właściwość do poszukiwania, chyba że porównujesz tylko estymatory z tą samą wariancją.

Estymatory ML mają tendencję do niskiej zmienności; zazwyczaj nie są one minimalne MSE, ale często mają niższe MSE niż modyfikowanie ich, aby były bezstronne (jeśli w ogóle możesz to zrobić).

Jako przykład, rozważmy oszacowania wariancji przy pobieraniu próbek z rozkładu normalnego σ 2 MMSE = S 2 (rzeczywiście MMSE dla wariancji ma zawsze większy mianownik niżn-1).σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1

Glen_b - Przywróć Monikę
źródło
1
+1. Czy jest jakaś intuicja (a może jakaś teoria) za twoim przedostatnim akapitem? Dlaczego estymatory ML mają niską wariancję? Dlaczego często mają niższe MSE niż obiektywny estymator? Jestem również zaskoczony, widząc wyrażenie dla estymatora wariancji MMSE; jakoś nigdy wcześniej tego nie spotkałem. Dlaczego jest tak rzadko używany? I czy to ma coś wspólnego ze skurczem? Wydaje się, że jest „skurczony” od obiektywnego do zera, ale jestem tym zdezorientowany, ponieważ przyzwyczaiłem się do myślenia o kurczeniu się tylko w kontekście wielowymiarowym (podobnie jak James-Stein).
ameba mówi Przywróć Monikę
1
@amoeba MLE są generalnie funkcjami wystarczających statystyk i co najmniej asymptotycznie minimalnej wariancji bezstronnej, więc oczekujesz, że będą one niską wariancją w dużych próbkach, zwykle osiągając CRLB w granicy; jest to często odzwierciedlone w mniejszych próbkach.Estymatory MMSE zwykle zmniejszane do zera, ponieważ zmniejsza to wariancję (a zatem niewielka ilość odchylenia w kierunku 0 wprowadzona przez niewielki skurcz zwykle zmniejsza MSE).
Glen_b
@Glen_b, świetna odpowiedź (wciąż do niej wracam). Czy masz wyjaśnienie lub odniesienie do σ 2 MMSE = S 2σ^MMSE2=S2n+1
Czy to również oznacza, że ​​estymator wariancji ML nie jest estymatorem minimalnej wariancji? W przeciwnym razie minimalny estymator MSE byłby średnią ważoną (z wagami dodatnimi) MLE i estymatora bezstronnego, ale teraz jest poza tym zakresem. Mógłbym zadać to jako osobne pytanie, jeśli uważasz, że ma to sens.
Richard Hardy,
1
Znalazłem całą pochodną w artykule na Wikipedii na temat MSE , chyba to wszystko wyjaśnia.
Richard Hardy,
16

MLE daje najbardziej prawdopodobną wartość parametrów modelu, biorąc pod uwagę model i dostępne dane - co jest dość atrakcyjną koncepcją. Dlaczego wybrałeś wartości parametrów, które sprawiają, że obserwowane dane są mniej prawdopodobne, skoro możesz wybrać wartości, które sprawiają, że obserwowane dane są najbardziej prawdopodobne dla dowolnego zestawu wartości? Czy chcesz poświęcić tę funkcję za bezstronność? Nie twierdzę, że odpowiedź jest zawsze jasna, ale motywacja do MLE jest dość silna i intuicyjna.

Ponadto, o ile mi wiadomo, MLE może mieć szersze zastosowanie niż metoda chwil. MLE wydaje się bardziej naturalny w przypadku zmiennych ukrytych; na przykład model średniej ruchomej (MA) lub uogólniony autoregresyjny model warunkowej heteroskedastyczności (GARCH) można bezpośrednio oszacować za pomocą MLE (bezpośrednio przez to rozumiem, że wystarczy podać funkcję prawdopodobieństwa i poddać ją rutynie optymalizacji) - ale nie metodą momentów (choć mogą istnieć pośrednie rozwiązania wykorzystujące metodę momentów).

Richard Hardy
źródło
4
+1. Oczywiście istnieje wiele przypadków, w których nie chcesz najbardziej prawdopodobnego oszacowania, takich jak modele mieszanki Gaussa (tj. Nieograniczone prawdopodobieństwo). Ogólnie rzecz biorąc, świetna odpowiedź na intuicję MLE.
Cliff AB
3
(+1) Ale myślę, że musisz dodać definicję „najbardziej prawdopodobnej” wartości parametru, ponieważ biorąc pod uwagę, które dane są najbardziej prawdopodobne, aby były całkiem jasne. Inne intuicyjnie pożądane właściwości estymatora niezwiązane z jego długotrwałym zachowaniem przy powtarzanym próbkowaniu mogą obejmować to, że nie zależy to od sposobu parametryzacji modelu i nie daje niemożliwych oszacowań prawdziwej wartości parametru.
Scortchi - Przywróć Monikę
6
Pomyśl, że nadal istnieje ryzyko, że „najbardziej prawdopodobne” zostanie odczytane jako „najbardziej prawdopodobne”.
Scortchi - Przywróć Monikę
2
@RichardHardy: Oni wcale nie są tacy sami. Najprawdopodobniej słońce zgasło. Najprawdopodobniej nie.
user2357112 obsługuje Monikę
2
@dsaxton: Statystycy różnicują prawdopodobieństwo wartości parametru, biorąc pod uwagę dane od prawdopodobieństwa danych o wartości parametru przez prawie wiek - patrz Fisher (1921) „O„ prawdopodobnym błędzie korelacji ”, Metron , 1 , ss. 3-32 i Pawitan (2013), In All Likelihood: Modeling statystyczny i wnioskowanie przy użyciu prawdopodobieństwa - więc nawet jeśli terminy są synonimiczne w zwykłym użyciu, wydaje się, że spóźnienie jest nieco spóźnione.
Scortchi - Przywróć Monikę
12

W rzeczywistości skalowanie oszacowań maksymalnego prawdopodobieństwa w celu uzyskania obiektywnych oszacowań jest standardową procedurą w wielu problemach z oszacowaniem. Powodem tego jest to, że mle jest funkcją wystarczających statystyk, a zatem według twierdzenia Rao-Blackwella, jeśli możesz znaleźć obiektywny estymator oparty na wystarczających statystykach, masz nieobciążony estymator minimalnej wariancji.

Wiem, że twoje pytanie jest bardziej ogólne, ale chcę podkreślić, że kluczowe pojęcia są ściśle związane z prawdopodobieństwem i opartymi na nich szacunkami. Oszacowania te mogą nie być obiektywne w próbkach skończonych, ale są asymptotyczne, a ponadto są asymptotycznie skuteczne, tj. Osiągają granicę wariancji Cramer-Rao dla obiektywnych estymatorów, co nie zawsze może mieć miejsce w przypadku estymatorów MOM.

JohnK
źródło
11

Aby odpowiedzieć na pytanie, dlaczego MLE jest tak popularny, weź pod uwagę, że chociaż może być stronniczy, jest spójny w standardowych warunkach. Ponadto jest asymptotycznie skuteczny, więc przynajmniej w przypadku dużych próbek MLE prawdopodobnie będzie działał tak samo lub lepiej, jak każdy inny estymator, który możesz przygotować. Wreszcie, MLE znajduje się na podstawie prostej receptury; weź funkcję prawdopodobieństwa i zmaksymalizuj ją. W niektórych przypadkach ten przepis może być trudny do przestrzegania, ale w przypadku większości problemów tak nie jest. Co więcej, po uzyskaniu tej oceny możemy natychmiast wyprowadzić asymptotyczne błędy standardowe na podstawie informacji Fishera. Bez korzystania z informacji Fishera często bardzo trudno jest ustalić granice błędów.

Właśnie dlatego estymacja MLE jest bardzo często stosowana do estymatora (chyba że jesteś Bayesianem); jest prosty do wdrożenia i prawdopodobnie będzie równie dobry, jeśli nie lepszy niż cokolwiek innego, czego potrzebujesz, aby wykonać więcej pracy, aby przygotować.

Cliff AB
źródło
1
Czy możesz wyjaśnić, jak to się dzieje do metody momentów, ponieważ wydaje się, że jest to ważna część PO?
Antoni Parellada
1
jak zauważył Whuber, estymatory MOM są również stronnicze, więc nie ma przewagi „bezstronności” w stosunku do estymatorów MOM. Ponadto, gdy estymatory MOM i MLE nie zgadzają się, MLE ma zwykle niższe MSE. Ale ta odpowiedź naprawdę dotyczy tego, dlaczego MLE jest raczej domyślna, niż bezpośrednie porównanie z innymi metodami.
Cliff AB
2
@AntoniParellada Istnieje ciekawy wątek w porównywaniu MLE i MoM, stats.stackexchange.com/q/80380/28746
Alecos Papadopoulos
3

Dodałbym, że czasami (często) używamy estymatora MLE, ponieważ to właśnie dostaliśmy, nawet jeśli w idealnym świecie nie byłoby to, czego chcemy. (Często myślę, że statystyki są jak inżynieria, w której wykorzystujemy to, co mamy, a nie to, czego chcemy.) W wielu przypadkach łatwo jest zdefiniować i rozwiązać MLE, a następnie uzyskać wartość, stosując iteracyjne podejście. Mając na uwadze, że dla danego parametru w danej sytuacji może istnieć lepszy estymator (dla pewnej wartości „lepszego”), ale znalezienie go może wymagać bardzo sprytnego; a kiedy skończysz być sprytny, nadal masz tylko lepszą ocenę tego konkretnego problemu.

eac2222
źródło
1
Z ciekawości, jaki jest przykład tego, czego (w idealnym świecie) chciałbyś?
Glen_b
2
@Glen_b: Dunno. Bezstronna, najniższa wariancja, łatwa do obliczenia w formie zamkniętej? Kiedy po raz pierwszy poznasz estymatory regresji metodą najmniejszych kwadratów, życie wydaje się prostsze, niż się okazuje.
eac2222,