Intuicyjne rozumowanie stojące za stronniczymi estymatorami największej wiarygodności

25

Mam wątpliwości co do stronniczości estymatorów maksymalnego prawdopodobieństwa (ML). Matematyka całej koncepcji jest dla mnie dość jasna, ale nie mogę zrozumieć intuicyjnego uzasadnienia.

Biorąc pod uwagę pewien zestaw danych, który zawiera próbki z rozkładu, który sam jest funkcją parametru, który chcemy oszacować, estymator ML daje wartość parametru, który najprawdopodobniej wygeneruje zestaw danych.

Nie mogę intuicyjnie zrozumieć stronniczego estymatora ML w tym sensie, że: w jaki sposób najbardziej prawdopodobna wartość parametru może przewidzieć rzeczywistą wartość parametru z odchyleniem w kierunku niewłaściwej wartości?

ssah
źródło
Myślę, że skupienie się na uprzedzeniu może odróżnić to pytanie od proponowanego duplikatu, chociaż z pewnością są one bardzo ściśle powiązane.
Silverfish,

Odpowiedzi:

14

estymator ML daje wartość parametru, który najprawdopodobniej wystąpi w zbiorze danych.

Biorąc pod uwagę założenia, estymator ML jest wartością parametru, który ma największą szansę na wygenerowanie zestawu danych.

Nie mogę intuicyjnie zrozumieć stronniczego estymatora ML w tym sensie, że „w jaki sposób najbardziej prawdopodobna wartość parametru może przewidzieć rzeczywistą wartość parametru z odchyleniem w kierunku niewłaściwej wartości?”

Odchylenie dotyczy oczekiwań dotyczących rozkładu próbkowania. „Najprawdopodobniej wygeneruje dane” nie dotyczy oczekiwań rozkładów próbkowania. Dlaczego mieliby iść razem?

Na jakiej podstawie jest zaskakujące, że niekoniecznie odpowiadają?

Sugeruję rozważenie kilku prostych przypadków MLE i zastanowienie się, jak powstaje różnica w tych konkretnych przypadkach.

Jako przykład rozważ obserwacje munduru na . Największa obserwacja nie jest (koniecznie) większa niż parametr, więc parametr może przyjmować wartości co najmniej tak duże, jak największa obserwacja.(0,θ)

Kiedy weźmiesz pod uwagę prawdopodobieństwo , jest ono (oczywiście) większe, im bliżejnajwiększej obserwacji jest θ . Jest więc maksymalizowanyprzynajwiększej obserwacji; to wyraźnie szacunek dla θ, który maksymalizuje szansę na uzyskanie próbki, którą otrzymałeś:θθθ

wprowadź opis zdjęcia tutaj

Ale z drugiej strony musi to być stronnicze, ponieważ największa obserwacja jest oczywiście (z prawdopodobieństwem 1) mniejsza niż prawdziwa wartość ; wszelkie inne szacunki θθθ nie zostały jeszcze wykluczone przez samą próbkę, muszą być od niej większe i muszą (w tym przypadku całkiem wyraźnie) być mniej prawdopodobne, że wytworzą próbkę.

Oczekiwanie największej obserwacji z wynosi nU(0,θ) , więc zwykłym sposobem na rozpakowanie jest przyjęcie estymatoraθ:nn+1θ , gdzie X ( n ) jest największą obserwacją.θ^=n+1nX(n)X(n)

To leży na prawo od MLE, a więc ma mniejsze prawdopodobieństwo.

Glen_b - Przywróć Monikę
źródło
dzięki za odpowiedź. Co do pierwszej części, wyraziłem się niepoprawnie. Miałem w zasadzie na myśli to, co powiedziałeś. Czy na podstawie odpowiedzi na drugą część mogę stwierdzić, że biorąc pod uwagę inny zestaw danych pochodzących z tego samego rozkładu, czy estymator ML spowoduje inne odchylenie? Ponieważ twierdzisz, że estymator ML jest tym, który „najprawdopodobniej” wytwarza dane. Jeśli zmienimy dane, prawdopodobnie inny estymator może je wygenerować. Czy to jest poprawne?
ssah
Estymator nie zmieni się, jeśli forma rozkładu populacji się nie zmieni. Inne szacunki zostaną opracowane na podstawie innej próbki, a wielkość, na jaką jest ona tendencyjna, będzie na ogół różna - uprzedzenie jest zwykle związane z wielkością próby, nawet jeśli populacja jest taka sama. ... (ctd)
Glen_b
(ctd) ... mnθ
Dobre wykorzystanie kanonicznego przykładu do dostrzeżenia różnicy między estymatorami obiektywnymi i ML.
jwg
6

βMLEβββMLE

MLE jest tylko asymptotycznie bezstronny i często można dostosować estymator, aby lepiej zachowywał się w próbkach skończonych. Na przykład MLE wariancji zmiennej losowej jest jednym przykładem, w którym pomnożone przezNN1 to przekształca.

Dimitriy V. Masterov
źródło
Przepraszamy za błąd w pierwszej części. Zredagowałem i naprawiłem to. Ale co do tego, co powiedziałeś o MLE, dlaczego miałoby to być stronnicze w pierwszej kolejności w przypadku niesymptotycznym?
ssah
2
„Lepszy” zależy od tego, na co patrzysz; Korekta Bessela czyni ją bezstronną, ale bezstronność nie jest automatycznie „lepsza” (na przykład MSE jest gorsza; dlaczego miałbym preferować bezstronność niż mniejsze MSE?). Bezstronność można by uznać za lepszą, ceteris paribus , ale niestety ceteris nie będzie paribusem .
Glen_b
Zrozumiałem, że bezstronny estymator można wykazać jako najbardziej bezstronny dzięki relacji między MLE i dolną granicą Cramer-Rao.
Dimitriy V. Masterov
@ssah Powiedziano mi, że dzieje się tak, ponieważ w formule używamy średniej próbki zamiast prawdziwej średniej. Szczerze mówiąc, tak naprawdę nigdy nie uważałem tego wyjaśnienia za szczególnie intuicyjne, ponieważ jeśli estymator MLE średniej jest bezstronny, dlaczego miałoby się to nie udać? Zwykle wątpię, by odpocząć dzięki symulacji.
Dimitriy V. Masterov
5

Oto moja intuicja.

Odchylenie jest miarą dokładności , ale istnieje również pojęcie precyzji .

wprowadź opis zdjęcia tutaj

W idealnym świecie otrzymalibyśmy oszacowanie, które jest zarówno precyzyjne, jak i dokładne, tj. Zawsze trafia w dziesiątkę. Niestety w naszym niedoskonałym świecie musimy zrównoważyć dokładność i precyzję. Czasami możemy czuć, że możemy dać trochę dokładności, aby uzyskać większą precyzję: cały czas się kompromisujemy. Stąd fakt, że estymator jest stronniczy, nie oznacza, że ​​jest zły: może być bardziej precyzyjny.

Aksakal
źródło