Dlaczego MLE ma sens, skoro prawdopodobieństwo pojedynczej próbki wynosi 0?

13

To trochę dziwna myśl, którą miałem podczas przeglądania starych statystyk i z jakiegoś powodu nie wydaje mi się, żebym wymyślił odpowiedź.

Ciągły plik PDF informuje nas o gęstości obserwacji wartości w danym zakresie. Mianowicie, jeśli XN(μ,σ2) , na przykład, to prawdopodobieństwo, że realizacja przypada między i b jest po prostu b a cp ( x ) d x gdzie φ jest gęstością rozkładu normalnego.ababϕ(x)dxϕ

Kiedy myślimy o dokonaniu oszacowania MLE parametru, powiedzmy μ , piszemy gęstość połączenia, powiedzmy N , zmiennych losowych X1..XN i różnicuj log-prawdopodobieństwo wrt na μ , ustaw równe 0 i rozwiąż dla μ . Często podawaną interpretacją jest „biorąc pod uwagę dane, których parametr sprawia, że ​​ta funkcja gęstości jest najbardziej prawdopodobna”.

Część, która mnie denerwuje, jest następująca: mamy gęstość N rv, a prawdopodobieństwo, że uzyskamy konkretną realizację, powiedzmy, nasza próbka, wynosi dokładnie 0. Dlaczego nawet warto zmaksymalizować łączną gęstość biorąc pod uwagę nasze dane ( ponieważ ponownie prawdopodobieństwo zaobserwowania naszej rzeczywistej próbki wynosi dokładnie 0)?

Jedyną racjonalizacją, jaką mogłem wymyślić, jest to, że chcemy, aby PDF był możliwie najwyższy wokół naszej zaobserwowanej próbki, tak aby całka w regionie (a zatem prawdopodobieństwo zaobserwowania rzeczy w tym regionie) była najwyższa.

Alex
źródło
1
Z tego samego powodu używamy gęstości prawdopodobieństwa stats.stackexchange.com/q/4220/35989
Tim
Rozumiem (myślę), dlaczego warto stosować gęstość. Nie rozumiem, dlaczego warto zmaksymalizować gęstość pod warunkiem obserwacji próbki, która ma zerowe prawdopodobieństwo wystąpienia.
Alex
2
Ponieważ gęstości prawdopodobieństwa mówią nam, które wartości są stosunkowo bardziej prawdopodobne niż inne.
Tim
Jeśli masz czas na pełne udzielenie odpowiedzi, myślę, że byłoby to bardziej pomocne dla mnie i dla następnej osoby.
Alex
Ponieważ na szczęście prawdopodobieństwo nie jest prawdopodobieństwem!
AdamO,

Odpowiedzi:

18

Pθ(X=x)xδδ

Aldrich, J. (1997) Statistics Science 12, 162-176

δ

Chociaż podszedł do nazwy „najbardziej prawdopodobnej wartości” i zastosował zasadę odwrotnego prawdopodobieństwa (wnioskowanie bayesowskie) z płaskim uprzednim, Carl Friedrich Gauß już w 1809 r. Wyprowadził estymator maksymalnego prawdopodobieństwa dla parametru wariancji rozkładu normalnego. Hald (1999) wspomina kilka innych przypadków szacunków maksymalnego prawdopodobieństwa przed opracowaniem Fishera z 1912 r., Które ustalają ogólną zasadę.

(x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ

Xi'an
źródło
Dziękuję za odpowiedź. Czy mógłbyś rozwinąć nieco argument KL? Nie widzę od razu, jak to jest.
Alex