Częstotliwościowe statystyki są dla mnie równoznaczne z podejmowaniem decyzji, które są dobre dla wszystkich możliwych próbek. Tj częstościowym reguła decyzyjna zawsze powinien starać się zminimalizować ryzyko częstościowym, która zależy na funkcji strata L i prawdziwego stanu natury θ 0 :
W jaki sposób oszacowanie maksymalnego prawdopodobieństwa wiąże się z ryzykiem dla częstych? Biorąc pod uwagę, że jest to najczęściej stosowana technika szacowania punktów stosowana przez częstych, musi istnieć pewien związek. O ile mi wiadomo, maksymalne oszacowanie prawdopodobieństwa jest starsze niż koncepcja częstego ryzyka, ale wciąż musi istnieć pewien związek, dlaczego tak wiele osób twierdziło, że jest to technika częstokroć?
Najbliższe połączenie, które znalazłem, to to
„W przypadku modeli parametrycznych, które spełniają słabe warunki prawidłowości, estymator maksymalnego prawdopodobieństwa wynosi w przybliżeniu minimax” Wassermann 2006, s. 1. 201 "
Przyjęta odpowiedź albo wiąże silniejsze oszacowanie punktu prawdopodobieństwa silniejszego z ryzykiem częstego, albo zapewnia alternatywną formalną definicję wnioskowania częstego, która pokazuje, że MLE jest techniką wnioskowania częstego.
źródło
Odpowiedzi:
Stosujesz stosunkowo wąską definicję częstości i MLE - jeśli jesteśmy nieco bardziej hojni i określamy
Częstotliwość: cel spójności, (asymptotyczna) optymalność, bezstronność i kontrolowane poziomy błędów przy powtarzanym próbkowaniu, niezależnie od prawdziwych parametrów
MLE = oszacowanie punktowe + przedziały ufności (CI)
wtedy wydaje się całkiem jasne, że MLE spełnia wszystkie ideały częstych. W szczególności, CI w MLE, jako wartości p, kontrolują poziom błędu podczas powtarzania próbkowania i nie dają obszaru prawdopodobieństwa 95% dla prawdziwej wartości parametru, jak wielu ludzi sądzi - stąd są przez częste.
Nie wszystkie z tych pomysłów były już obecne w fundamentalnym artykule Fishera z 1922 r. „O matematycznych podstawach statystyki teoretycznej” , ale idea optymalności i bezstronności jest, a Neyman dodał pomysł konstruowania elementów CI z ustalonymi poziomami błędów. Efron, 2013, „250-letni spór: wiara, zachowanie i bootstrap” , podsumowuje w swojej bardzo czytelnej historii debaty bayesowskiej / częstokońskiej:
Jeśli chodzi o twoją wąską definicję - delikatnie nie zgadzam się z twoją przesłanką, że minimalizacja ryzyka częstych (FR) jest głównym kryterium decydującym o tym, czy metoda jest zgodna z filozofią częstych. Powiedziałbym, że fakt, iż minimalizowanie FR jest pożądaną właściwością, wynika raczej z filozofii częstych, niż z jej poprzedniczki. Stąd zasada / estymator decyzji nie musi minimalizować FR, aby być częstym, a minimalizowanie FR niekoniecznie oznacza, że metoda jest częsta, ale częsty wątpliwy wolałby minimalizację FR.
Jeśli spojrzymy konkretnie na MLE: Fisher wykazał, że MLE jest asymptotycznie optymalny (zasadniczo równoważny z minimalizacją FR) iz pewnością był to jeden z powodów promowania MLE. Był jednak świadomy, że optymalność nie dotyczy skończonej wielkości próby. Mimo to był zadowolony z tego estymatora ze względu na inne pożądane właściwości, takie jak spójność, asymptotyczna normalność, niezmienność przy przekształceniach parametrów i nie zapominajmy: łatwość obliczeń. Szczególnie niezmienność jest mocno zaakcentowana w artykule z 1922 r. - z mojej lektury powiedziałbym, że utrzymanie niezmienniczości w trakcie transformacji parametrów i umiejętność pozbycia się a priori w ogóle były jedną z jego głównych motywacji przy wyborze MLE. Jeśli chcesz lepiej zrozumieć jego rozumowanie, naprawdę polecam artykuł z 1922 r., „
źródło
Zasadniczo z dwóch powodów:
źródło
MAP
jest także punktowym oszacowaniem i jest rozczarowany „Prawdziwymi Bayesianami”