Zasadniczo wydaje się, że metoda momentów polega jedynie na dopasowaniu obserwowanej średniej próbki lub wariancji do momentów teoretycznych w celu uzyskania oszacowań parametrów. Rozumiem, że jest to często to samo co MLE dla rodzin wykładniczych.
Jednak trudno jest znaleźć jasną definicję metody momentów i jasną dyskusję na temat tego, dlaczego MLE wydaje się być ogólnie uprzywilejowanym, nawet jeśli trudniej jest znaleźć tryb funkcji prawdopodobieństwa.
To pytanie Czy metoda MLE jest bardziej wydajna niż metoda Moment? ma cytat z prof. Donalda Rubina (z Harvardu), który mówi, że od lat 40. wszyscy wiedzą, że MLE pokonuje MoM, ale chciałbym poznać historię lub uzasadnienie tego.
Odpowiedzi:
W MoM estymator jest wybierany tak, aby jakaś funkcja miała warunkowe oczekiwanie równe zero. Np. . Często oczekiwanie zależy od x . Zazwyczaj jest to przekształcane w problem minimalizacji formy kwadratowej w tych oczekiwaniach za pomocą macierzy masy.mi[ g( y, x , θ ) ] = 0 x
W MLE estymator maksymalizuje funkcję prawdopodobieństwa dziennika.
W szerokim uogólnieniu MLE przyjmuje bardziej rygorystyczne założenia (pełna gęstość), a zatem jest zazwyczaj mniej odporny, ale bardziej wydajny, jeśli założenia są spełnione (osiąga dolną granicę Kramer Rao w przypadku asymptotycznej wariancji).
W niektórych przypadkach oba się pokrywają, OLS jest jednym z godnych uwagi przykładów, w których rozwiązanie analityczne jest identyczne, a zatem estymator zachowuje się w ten sam sposób.
W pewnym sensie można myśleć o MLE (w prawie wszystkich przypadkach) jako estymatorze MoM, ponieważ estymator ustawia wartość oczekiwaną gradientu funkcji prawdopodobieństwa logarytmu na zero. W tym sensie istnieją przypadki, w których gęstość jest nieprawidłowa, ale MLE jest nadal spójny, ponieważ warunki pierwszego rzędu są nadal spełnione. Następnie MLE określa się jako „quasi-ML”.
źródło
Jest ładny artykuł na ten temat na Wikipedii.
https://en.m.wikipedia.org/wiki/Method_of_moments_(statistics)
Oznacza to, że estymujesz parametry populacji, wybierając parametry tak, że rozkład populacji ma momenty równoważne momentom obserwowanym w próbie.
Oszacowanie maksymalnego prawdopodobieństwa minimalizuje funkcję wiarygodności. W niektórych przypadkach to minimum można czasem wyrazić jako ustawienie parametrów populacji równych parametrom próby.
Podczas gdy rozwiązanie MoM jest w trakcie rozwiązywania
Tak więc MoM jest praktycznym sposobem oszacowania parametrów, prowadzącym często do dokładnie tego samego wyniku co MLE (ponieważ momenty próbki często pokrywają się z momentami populacji, np. Średnia próbki jest rozłożona wokół średniej populacji, i do pewnego współczynnika / stronniczości, działa bardzo dobrze). MLE ma silniejsze podstawy teoretyczne i na przykład umożliwia oszacowanie błędów przy użyciu macierzy Fishera (lub jej oszacowań), i jest to znacznie bardziej naturalne podejście w przypadku problemów z regresją (nie próbowałem tego, ale sądzę, że MoM do rozwiązywania parametrów w prostej regresji liniowejnie działa łatwo i może dawać złe wyniki. W odpowiedzi superpronkera wydaje się, że dzieje się tak przez pewną minimalizację funkcji. W przypadku MLE ta minimalizacja wyraża większe prawdopodobieństwo, ale zastanawiam się, czy reprezentuje coś podobnego dla MoM).
źródło
Soorry, nie mogę pominąć komentarzy ..
W rzeczywistości na MITx „ Podstawy statystyki ” uczymy się czegoś przeciwnego, że MoM opiera się na określonym równaniu momentów, a jeśli wybieramy niewłaściwą gęstość, robimy całkowicie źle, podczas gdy MLE jest bardziej odporny, ponieważ we wszystkich przypadkach minimalizujemy rozbieżność KD ..
źródło