Szacowanie maksymalnego prawdopodobieństwa często skutkuje tendencyjnymi estymatorami (np. Jego oszacowanie dla wariancji próby jest tendencyjne dla rozkładu Gaussa).
Co zatem sprawia, że jest tak popularny? Dlaczego dokładnie jest tak często używany? Co w szczególności czyni go lepszym niż alternatywne podejście - metoda chwil?
Zauważyłem również, że dla Gaussa proste skalowanie estymatora MLE czyni go bezstronnym. Dlaczego to skalowanie nie jest standardową procedurą? Mam na myśli - Dlaczego po obliczeniach MLE nie jest rutynowe znalezienie niezbędnego skalowania, aby estymator był bezstronny? Standardową praktyką wydaje się być zwykłe obliczenie oszacowań MLE, z wyjątkiem oczywiście dobrze znanego przypadku Gaussa, w którym współczynnik skalowania jest dobrze znany.
Odpowiedzi:
Sama bezstronność niekoniecznie jest szczególnie ważna.
Poza bardzo ograniczonym zestawem okoliczności, najbardziej przydatne estymatory są stronnicze, jednak są uzyskiwane.
Jeśli dwa estymatory mają tę samą wariancję, można z łatwością postawić argument za preferowaniem obiektywnego bez uprzedzenia, ale jest to niezwykła sytuacja (to znaczy, można rozsądnie preferować bezstronność, ceteris paribus - ale te nieznośne ceteris prawie nigdy nie są paribusem ).
Częściej, jeśli chcesz obiektywności, dodasz pewną wariancję, aby ją zdobyć, a wtedy pytanie brzmi: dlaczego to zrobiłbyś ?
Odchylenie jest tym, jak daleko oczekiwana wartość mojego estymatora będzie średnio zbyt wysoka (z ujemnym odchyleniem wskazującym zbyt niskie).
Kiedy zastanawiam się nad estymatorem małej próbki, tak naprawdę nie obchodzi mnie to. Zwykle bardziej interesuje mnie, jak bardzo błędny będzie mój estymator w tym przypadku - moja typowa odległość od prawej ... coś w rodzaju błędu średniej kwadratowej lub średniego błędu bezwzględnego miałoby większy sens.
Więc jeśli lubisz niską wariancję i niską stronniczość, poproś o powiedzenie a sensowne byłoby oszacowanie błędu minimalnego średniego kwadratu ; są to bardzo rzadko obiektywne.
Odchylenie i bezstronność jest użytecznym pojęciem, o którym należy pamiętać, ale nie jest to szczególnie przydatna właściwość do poszukiwania, chyba że porównujesz tylko estymatory z tą samą wariancją.
Estymatory ML mają tendencję do niskiej zmienności; zazwyczaj nie są one minimalne MSE, ale często mają niższe MSE niż modyfikowanie ich, aby były bezstronne (jeśli w ogóle możesz to zrobić).
Jako przykład, rozważmy oszacowania wariancji przy pobieraniu próbek z rozkładu normalnego σ 2 MMSE = S 2 (rzeczywiście MMSE dla wariancji ma zawsze większy mianownik niżn-1).σ^2MMSE=S2n+1,σ^2MLE=S2n,σ^2Unb=S2n−1 n−1
źródło
MLE daje najbardziej prawdopodobną wartość parametrów modelu, biorąc pod uwagę model i dostępne dane - co jest dość atrakcyjną koncepcją. Dlaczego wybrałeś wartości parametrów, które sprawiają, że obserwowane dane są mniej prawdopodobne, skoro możesz wybrać wartości, które sprawiają, że obserwowane dane są najbardziej prawdopodobne dla dowolnego zestawu wartości? Czy chcesz poświęcić tę funkcję za bezstronność? Nie twierdzę, że odpowiedź jest zawsze jasna, ale motywacja do MLE jest dość silna i intuicyjna.
Ponadto, o ile mi wiadomo, MLE może mieć szersze zastosowanie niż metoda chwil. MLE wydaje się bardziej naturalny w przypadku zmiennych ukrytych; na przykład model średniej ruchomej (MA) lub uogólniony autoregresyjny model warunkowej heteroskedastyczności (GARCH) można bezpośrednio oszacować za pomocą MLE (bezpośrednio przez to rozumiem, że wystarczy podać funkcję prawdopodobieństwa i poddać ją rutynie optymalizacji) - ale nie metodą momentów (choć mogą istnieć pośrednie rozwiązania wykorzystujące metodę momentów).
źródło
W rzeczywistości skalowanie oszacowań maksymalnego prawdopodobieństwa w celu uzyskania obiektywnych oszacowań jest standardową procedurą w wielu problemach z oszacowaniem. Powodem tego jest to, że mle jest funkcją wystarczających statystyk, a zatem według twierdzenia Rao-Blackwella, jeśli możesz znaleźć obiektywny estymator oparty na wystarczających statystykach, masz nieobciążony estymator minimalnej wariancji.
Wiem, że twoje pytanie jest bardziej ogólne, ale chcę podkreślić, że kluczowe pojęcia są ściśle związane z prawdopodobieństwem i opartymi na nich szacunkami. Oszacowania te mogą nie być obiektywne w próbkach skończonych, ale są asymptotyczne, a ponadto są asymptotycznie skuteczne, tj. Osiągają granicę wariancji Cramer-Rao dla obiektywnych estymatorów, co nie zawsze może mieć miejsce w przypadku estymatorów MOM.
źródło
Aby odpowiedzieć na pytanie, dlaczego MLE jest tak popularny, weź pod uwagę, że chociaż może być stronniczy, jest spójny w standardowych warunkach. Ponadto jest asymptotycznie skuteczny, więc przynajmniej w przypadku dużych próbek MLE prawdopodobnie będzie działał tak samo lub lepiej, jak każdy inny estymator, który możesz przygotować. Wreszcie, MLE znajduje się na podstawie prostej receptury; weź funkcję prawdopodobieństwa i zmaksymalizuj ją. W niektórych przypadkach ten przepis może być trudny do przestrzegania, ale w przypadku większości problemów tak nie jest. Co więcej, po uzyskaniu tej oceny możemy natychmiast wyprowadzić asymptotyczne błędy standardowe na podstawie informacji Fishera. Bez korzystania z informacji Fishera często bardzo trudno jest ustalić granice błędów.
Właśnie dlatego estymacja MLE jest bardzo często stosowana do estymatora (chyba że jesteś Bayesianem); jest prosty do wdrożenia i prawdopodobnie będzie równie dobry, jeśli nie lepszy niż cokolwiek innego, czego potrzebujesz, aby wykonać więcej pracy, aby przygotować.
źródło
Dodałbym, że czasami (często) używamy estymatora MLE, ponieważ to właśnie dostaliśmy, nawet jeśli w idealnym świecie nie byłoby to, czego chcemy. (Często myślę, że statystyki są jak inżynieria, w której wykorzystujemy to, co mamy, a nie to, czego chcemy.) W wielu przypadkach łatwo jest zdefiniować i rozwiązać MLE, a następnie uzyskać wartość, stosując iteracyjne podejście. Mając na uwadze, że dla danego parametru w danej sytuacji może istnieć lepszy estymator (dla pewnej wartości „lepszego”), ale znalezienie go może wymagać bardzo sprytnego; a kiedy skończysz być sprytny, nadal masz tylko lepszą ocenę tego konkretnego problemu.
źródło