Dlaczego szacowanie maksymalnego prawdopodobieństwa jest uważane za technikę częstokroć

19

Częstotliwościowe statystyki są dla mnie równoznaczne z podejmowaniem decyzji, które są dobre dla wszystkich możliwych próbek. Tj częstościowym reguła decyzyjna zawsze powinien starać się zminimalizować ryzyko częstościowym, która zależy na funkcji strata L i prawdziwego stanu natury θ 0 :δL.θ0

Rfarmiq=miθ0(L.(θ0,δ(Y))

W jaki sposób oszacowanie maksymalnego prawdopodobieństwa wiąże się z ryzykiem dla częstych? Biorąc pod uwagę, że jest to najczęściej stosowana technika szacowania punktów stosowana przez częstych, musi istnieć pewien związek. O ile mi wiadomo, maksymalne oszacowanie prawdopodobieństwa jest starsze niż koncepcja częstego ryzyka, ale wciąż musi istnieć pewien związek, dlaczego tak wiele osób twierdziło, że jest to technika częstokroć?

Najbliższe połączenie, które znalazłem, to to

„W przypadku modeli parametrycznych, które spełniają słabe warunki prawidłowości, estymator maksymalnego prawdopodobieństwa wynosi w przybliżeniu minimax” Wassermann 2006, s. 1. 201 "

Przyjęta odpowiedź albo wiąże silniejsze oszacowanie punktu prawdopodobieństwa silniejszego z ryzykiem częstego, albo zapewnia alternatywną formalną definicję wnioskowania częstego, która pokazuje, że MLE jest techniką wnioskowania częstego.

Julian Karls
źródło
6
ML w ogóle nie zwraca uwagi na ryzyko! W rzeczywistości jest to część częstokroć teoretycznej krytyki decyzji ML. Podejrzewam, że odpowiedź na to pytanie może być trudna, ponieważ domyślnie używa „Frequentist” w dwóch niekompatybilnych zmysłach - jeden jest teoretyczny, odnoszący się do funkcji straty, a drugi domyślnie odnosi się do nie zakładania wcześniejszej dystrybucji.
whuber
@whuber ML zwraca uwagę na ryzyko. W rzeczywistości jest to minimalizacja przy stracie logarytmicznej pod niewłaściwym mundurem wcześniej.
Cagdas Ozgenc
4
@Cagdas Uważam, że zwykle nie jest to ryzyko dla decydenta: po prostu wykazuje ML, jakby minimalizował ryzyko, gdyby strata logarytmiczna była ryzykiem, które miało dla nich znaczenie. Nawiasem mówiąc, apelowanie do „niewłaściwego uprzedniego munduru” zdecydowanie nie jest częste!
whuber
1
@whuber Procedury szacowania Bayesa wykorzystują również skumulowaną utratę logów. Dopiero potem stosuje się ryzyko decydenta. Jeśli mówimy o bezpośredniej optymalizacji ryzyka osoby decyzyjnej (a nie poprzez odskocznię do utraty drewna), to procedury częste są bardziej znane pod tym względem, tj. OLS.
Cagdas Ozgenc

Odpowiedzi:

16

Stosujesz stosunkowo wąską definicję częstości i MLE - jeśli jesteśmy nieco bardziej hojni i określamy

  • Częstotliwość: cel spójności, (asymptotyczna) optymalność, bezstronność i kontrolowane poziomy błędów przy powtarzanym próbkowaniu, niezależnie od prawdziwych parametrów

  • MLE = oszacowanie punktowe + przedziały ufności (CI)

wtedy wydaje się całkiem jasne, że MLE spełnia wszystkie ideały częstych. W szczególności, CI w MLE, jako wartości p, kontrolują poziom błędu podczas powtarzania próbkowania i nie dają obszaru prawdopodobieństwa 95% dla prawdziwej wartości parametru, jak wielu ludzi sądzi - stąd są przez częste.

Nie wszystkie z tych pomysłów były już obecne w fundamentalnym artykule Fishera z 1922 r. „O matematycznych podstawach statystyki teoretycznej” , ale idea optymalności i bezstronności jest, a Neyman dodał pomysł konstruowania elementów CI z ustalonymi poziomami błędów. Efron, 2013, „250-letni spór: wiara, zachowanie i bootstrap” , podsumowuje w swojej bardzo czytelnej historii debaty bayesowskiej / częstokońskiej:

Częstotliwościowy modowy naprawdę zaczął działać na początku XX wieku. Ronald Fisher opracował teorię największego prawdopodobieństwa optymalnego oszacowania, pokazując najlepsze możliwe zachowanie dla oszacowania, a Jerzy Neyman zrobił to samo dla przedziałów ufności i testów. Procedury Fishera i Neymana były prawie idealnie dopasowane do potrzeb naukowych i obliczeniowych ograniczeń nauki XX wieku, wprowadzając bayesianizm w cień.

Jeśli chodzi o twoją wąską definicję - delikatnie nie zgadzam się z twoją przesłanką, że minimalizacja ryzyka częstych (FR) jest głównym kryterium decydującym o tym, czy metoda jest zgodna z filozofią częstych. Powiedziałbym, że fakt, iż minimalizowanie FR jest pożądaną właściwością, wynika raczej z filozofii częstych, niż z jej poprzedniczki. Stąd zasada / estymator decyzji nie musi minimalizować FR, aby być częstym, a minimalizowanie FR niekoniecznie oznacza, że ​​metoda jest częsta, ale częsty wątpliwy wolałby minimalizację FR.

Jeśli spojrzymy konkretnie na MLE: Fisher wykazał, że MLE jest asymptotycznie optymalny (zasadniczo równoważny z minimalizacją FR) iz pewnością był to jeden z powodów promowania MLE. Był jednak świadomy, że optymalność nie dotyczy skończonej wielkości próby. Mimo to był zadowolony z tego estymatora ze względu na inne pożądane właściwości, takie jak spójność, asymptotyczna normalność, niezmienność przy przekształceniach parametrów i nie zapominajmy: łatwość obliczeń. Szczególnie niezmienność jest mocno zaakcentowana w artykule z 1922 r. - z mojej lektury powiedziałbym, że utrzymanie niezmienniczości w trakcie transformacji parametrów i umiejętność pozbycia się a priori w ogóle były jedną z jego głównych motywacji przy wyborze MLE. Jeśli chcesz lepiej zrozumieć jego rozumowanie, naprawdę polecam artykuł z 1922 r., „

Florian Hartig
źródło
2
Czy mogę streścić twoją odpowiedź, ponieważ oszacowanie maksymalnego prawdopodobieństwa jest najczęściej stosowane w połączeniu z CI lub jako część testu hipotez (np. Testu racji prawdopodobieństwa), dlatego jest to technika częstokroć? W takim przypadku uważam, że jest to poprawna odpowiedź, jednak nie ta, na którą liczyłem. Dążyłem do formalnego argumentu, dlaczego oszacowanie maksymalnego prawdopodobieństwa można uznać za technikę szacowania punktów częstych. Jeśli wymaga to innej formalnej definicji wnioskowania częstych, jest to również w porządku.
Julian Karls
1
Ogólnie myślę o MLE jako o strukturze, która zawiera oszacowania punktowe Fishera wraz z CI Neymana - tak uczy się w klasie, a biorąc pod uwagę powyższe argumenty, utrzymałbym, że jest częsty w stosunku do kości. Zastanawiam się, jaki sens ma dyskusja, czy sam MLE jest częstym estymatorem, bez kontekstu, w jaki sposób i dlaczego jest używany. Jeśli chcesz powodów Fishera, naprawdę polecam artykuł z 1922 r. - Powiedziałbym, że powody, dla których twierdzi, są częste, chociaż to słowo nie istniało wtedy. Rozszerzyłem swój komentarz w tym względzie.
Florian Hartig
1

Zasadniczo z dwóch powodów:

  • Maksymalne prawdopodobieństwo jest punktowym oszacowaniem parametrów modelu. My Bayesianie lubimy rozkłady tylne.
  • Maksymalne prawdopodobieństwo nie zakłada wcześniejszej dystrybucji , my Bayesianie potrzebujemy naszych przełożonych, może być informacyjny lub nieinformacyjny, ale musi istnieć
Uri Goren
źródło
6
+1 Chciałbym tylko zaznaczyć, że w tej odpowiedzi wydaje się, że pośrednio utożsamiasz „częstych” z „nie-bayesowskimi”. Język „We Bayesians” sugeruje również, że „Bayesian” odnosi się do jakiegoś rodzaju cechy osobowej lub przynależności do plemienia - prawie tak, jakbyś był rodzajem Eskimo - niż zestawu technik i interpretacji.
whuber
4
Z drugiej strony MLE można łatwo wyprowadzić jako technikę bayesowską. Jest to po prostu oszacowanie MAP dla dowolnego modelu statystycznego wykorzystującego jednolity uprzedni.
Julian Karls,
3
MAPjest także punktowym oszacowaniem i jest rozczarowany „Prawdziwymi Bayesianami”
Uri Goren,