Mam wątpliwości co do stronniczości estymatorów maksymalnego prawdopodobieństwa (ML). Matematyka całej koncepcji jest dla mnie dość jasna, ale nie mogę zrozumieć intuicyjnego uzasadnienia.
Biorąc pod uwagę pewien zestaw danych, który zawiera próbki z rozkładu, który sam jest funkcją parametru, który chcemy oszacować, estymator ML daje wartość parametru, który najprawdopodobniej wygeneruje zestaw danych.
Nie mogę intuicyjnie zrozumieć stronniczego estymatora ML w tym sensie, że: w jaki sposób najbardziej prawdopodobna wartość parametru może przewidzieć rzeczywistą wartość parametru z odchyleniem w kierunku niewłaściwej wartości?
maximum-likelihood
bias
ssah
źródło
źródło
Odpowiedzi:
Biorąc pod uwagę założenia, estymator ML jest wartością parametru, który ma największą szansę na wygenerowanie zestawu danych.
Odchylenie dotyczy oczekiwań dotyczących rozkładu próbkowania. „Najprawdopodobniej wygeneruje dane” nie dotyczy oczekiwań rozkładów próbkowania. Dlaczego mieliby iść razem?
Na jakiej podstawie jest zaskakujące, że niekoniecznie odpowiadają?
Sugeruję rozważenie kilku prostych przypadków MLE i zastanowienie się, jak powstaje różnica w tych konkretnych przypadkach.
Jako przykład rozważ obserwacje munduru na . Największa obserwacja nie jest (koniecznie) większa niż parametr, więc parametr może przyjmować wartości co najmniej tak duże, jak największa obserwacja.(0,θ)
Kiedy weźmiesz pod uwagę prawdopodobieństwo , jest ono (oczywiście) większe, im bliżejnajwiększej obserwacji jest θ . Jest więc maksymalizowanyprzynajwiększej obserwacji; to wyraźnie szacunek dla θ, który maksymalizuje szansę na uzyskanie próbki, którą otrzymałeś:θ θ θ
Ale z drugiej strony musi to być stronnicze, ponieważ największa obserwacja jest oczywiście (z prawdopodobieństwem 1) mniejsza niż prawdziwa wartość ; wszelkie inne szacunki θθ θ nie zostały jeszcze wykluczone przez samą próbkę, muszą być od niej większe i muszą (w tym przypadku całkiem wyraźnie) być mniej prawdopodobne, że wytworzą próbkę.
Oczekiwanie największej obserwacji z wynosi nU(0,θ) , więc zwykłym sposobem na rozpakowanie jest przyjęcie estymatoraθ:nn+1 θ , gdzie X ( n ) jest największą obserwacją.θ^=n+1nX(n) X(n)
To leży na prawo od MLE, a więc ma mniejsze prawdopodobieństwo.
źródło
MLE jest tylko asymptotycznie bezstronny i często można dostosować estymator, aby lepiej zachowywał się w próbkach skończonych. Na przykład MLE wariancji zmiennej losowej jest jednym przykładem, w którym pomnożone przezNN−1 to przekształca.
źródło
Oto moja intuicja.
Odchylenie jest miarą dokładności , ale istnieje również pojęcie precyzji .
W idealnym świecie otrzymalibyśmy oszacowanie, które jest zarówno precyzyjne, jak i dokładne, tj. Zawsze trafia w dziesiątkę. Niestety w naszym niedoskonałym świecie musimy zrównoważyć dokładność i precyzję. Czasami możemy czuć, że możemy dać trochę dokładności, aby uzyskać większą precyzję: cały czas się kompromisujemy. Stąd fakt, że estymator jest stronniczy, nie oznacza, że jest zły: może być bardziej precyzyjny.
źródło