Jestem zdezorientowany co do metody maksymalnego prawdopodobieństwa w porównaniu do np. Obliczania średniej arytmetycznej.
Kiedy i dlaczego maksymalne prawdopodobieństwo daje „lepsze” oszacowania niż np. Średnia arytmetyczna? Jak to można zweryfikować?
maximum-likelihood
mavavilj
źródło
źródło
Odpowiedzi:
Chociaż średnia arytmetyczna może brzmieć jak „naturalny” estymator, można zapytać, dlaczego należy ją preferować w stosunku do MLE! Jedyną pewną właściwością związaną ze średnią arytmetyczną jest to, że jest to obiektywny estymator E [ X ], gdy zdefiniowane jest to oczekiwanie. (Pomyśl o rozkładzie Cauchy'ego jako kontrprzykładzie.) Później rzeczywiście cieszy się szerokim zakresem właściwości w warunkach regularności dotyczących funkcji prawdopodobieństwa. Aby pożyczyć ze strony wikipedii , MLE jestx¯ E[X]
W porównaniu ze średnią arytmetyczną większość tych właściwości jest również spełniona dla wystarczająco regularnych rozkładów. Z wyjątkiem 4 i 5. W przypadku rodzin wykładniczych MLE i średnia arytmetyczna są identyczne do oszacowania parametru w średniej parametryzacji (ale nie dla innych parametryzacji). I istnieje MLE dla próbki z rozkładu Cauchy'ego.
Jednakże, przechodząc do właściwości optymalizujących skończoną próbkę, takich jak minimaksymalność lub dopuszczalność, może się zdarzyć, że MLE nie jest ani minimaksem, ani dopuszczalnym. Na przykład efekt Steina pokazuje, że istnieją estymatory o mniejszym ryzyku kwadratowym dla wszystkich wartości parametru pod pewnymi ograniczeniami dotyczącymi rozkładu próbki i wymiaru parametru. Tak jest w przypadku, gdy i p ≥ 3 .x∼Np(θ,Ip) p≥3
źródło
Zinterpretujmy „obliczanie średniej arytmetycznej” jako oszacowanie przy użyciu metody momentów (MoM). Uważam, że jest to zgodne z pierwotnym pytaniem, ponieważ metoda zastępuje średnie próbne teoretycznymi. Uwzględnia również obawy @ Xi'an dotyczące arbitralnego parametru (z dowolnego modelu).
Jeśli nadal jesteś ze mną, myślę, że doskonałym miejscem do zrobienia są Przykłady, w których metoda chwil może pokonać maksymalne prawdopodobieństwo w małych próbkach? Tekst pytania wskazuje, że „estymatory największej wiarygodności (MLE) są asymptotycznie skuteczne; widzimy praktyczny wynik w tym, że często wypadają lepiej niż szacunki metodą momentów (MoM) (gdy się różnią)”, i poszukują konkretnych przypadków, w których estymatory MoM osiągnąć mniejszy średni błąd kwadratu niż jego odpowiednik MLE. Kilka podanych przykładów dotyczy regresji liniowej, dwuparametrowego odwrotnego rozkładu Gaussa i asymetrycznego wykładniczego rozkładu mocy.
Ta idea „wydajności asymptotycznej” oznacza, że estymatory maksymalnego prawdopodobieństwa są prawdopodobnie bliskie wykorzystania danych z pełnym potencjałem (do oszacowania danego parametru), co jest gwarancją, której nie otrzymujesz metodą momentów w ogóle. Podczas gdy maksymalne prawdopodobieństwo nie zawsze jest „lepsze” niż praca ze średnimi, ta właściwość wydajności (choćby w granicach) sprawia, że jest to metoda najczęściej stosowana. Oczywiście contrarian może argumentować, że wraz ze wzrostem wielkości zbiorów danych, jeśli wskazujesz właściwy cel za pomocą funkcji średnich, idź z nim.
źródło
Istnieje kilka znanych przykładów, w których maksymalne prawdopodobieństwo (ML) nie zapewnia najlepszego rozwiązania. Zobacz artykuł Luciena Le Cam z 1990 r .: „Maksymalne prawdopodobieństwo: wprowadzenie” [1] , który pochodzi z jego zaproszonych wykładów na Univ. z Maryland.
Przykład, który najbardziej mi się podoba, ponieważ jest tak prosty, to:
Nie zepsuję zabawy, dając ci odpowiedź, ale (nic dziwnego) istnieją dwa sposoby rozwiązania tego za pomocą ML i dają różne rozwiązania. Jedna to „średnia arytmetyczna” kwadratów reszt (jak można się spodziewać), a druga to połowa średniej arytmetycznej. Możesz znaleźć odpowiedź tutaj na mojej stronie Github.
źródło