W przypadku płaskiego przejęcia estymatory ML (częste - maksymalne prawdopodobieństwo) i MAP (bayesowskie - maksymalne a posteriori) pokrywają się.
Mówiąc bardziej ogólnie, mówię o estymatorach punktowych wyprowadzonych jako optymalizatory niektórych funkcji strat. To znaczy
(Bayesa) x (
gdzie jest operator wartości oczekiwanej, jest funkcją strat (zminimalizowane na jest estymatorem, biorąc pod uwagę dane , z parametrów i zmiennych losowych są oznaczone dużymi literami.
Czy ktoś wie żadnych warunków na , PDF i , nałożone liniowości i / lub nieobciążoności, gdzie estymatory zbiegnie?
Edytować
Jak zauważono w komentarzach, wymóg bezstronności, taki jak bezstronność, jest konieczny, aby problem Frequentist miał sens. Płaskie priory mogą być również wspólną cechą.
Poza ogólnymi dyskusjami zawartymi w niektórych odpowiedziach, tak naprawdę chodzi o podanie rzeczywistych przykładów . Myślę, że ważny jest regresja liniowa:
- OLS, jest NIEBIESKI ( twierdzenie Gaussa-Markowa ), tj. minimalizuje częste MSE wśród estymatorów liniowo-obiektywnych.
- jeśli jest gaussowski, a pierwszeństwo jest płaskie, to średnia „tylna” minimalizuje średnią stratę bayesowską dla dowolnej funkcji wypukłej straty.
Tutaj wydaje się być znany jako matryca danych / projektu odpowiednio w języku lingwistycznym / bayesowskim.
Odpowiedzi:
Pytanie jest interesujące, ale nieco beznadziejne, chyba że doprecyzowano pojęcie estymatora częstokroć . To na pewno nie jest jeden zestaw w pytaniu x ( , ponieważ odpowiedź na minimalizację jest x ( y ) = x dla wszystkich y „s Jak wskazano wodpowiedzi Programmer2134 użytkownika. Podstawową kwestią jest to, że nie ma jednego estymatora częstości dla problemu estymacji, bez wprowadzenia dodatkowych ograniczeń lub klas estymatorów. Bez nich wszystkie estymatory Bayesa są także estymatorami częstościowymi.
Jak wskazano w komentarzach, bezstronność może być takim ograniczeniem, w którym to przypadku estymatory Bayesa są wykluczone. Ale to często spotykane pojęcie koliduje z innymi pojęciami częstymi takimi jak
Plus bezstronność dotyczy tylko ograniczonej klasy problemów z oszacowaniem. Rozumiem przez to, że klasa obiektywnych estymatorów określonego parametru lub transformacji h ( θ ) jest przez większość czasu pusta.θ h(θ)
Mówiąc o dopuszczalności, innym częstym pojęciu, istnieją ustawienia, dla których jedynymi dopuszczalnymi estymatorami są estymatory Bayesa i odwrotnie. Ten typ ustawień odnosi się do kompletnych twierdzeń klasowych ustalonych przez Abrahama Walda w latach pięćdziesiątych. (To samo dotyczy najlepszych niezmienników estymatorów, którymi są Bayes zgodnie z odpowiednią właściwą miarą Haara).
źródło
Ogólnie rzecz biorąc, estymatorzy częstości i bayesowscy nie pokrywają się, chyba że wcześniej użyjesz zdegenerowanego mieszkania. Główny powód jest następujący: estymatorzy często dążą do zachowania obiektywności. Na przykład osoby często odwiedzające często próbują znaleźć obiektywny estymator minimalnej wariancji ( http://en.wikipedia.org/wiki/Minimum-variance_unnoś__imimator ). Tymczasem wszystkie nie-zdegenerowane estymatory Bayesa są stronnicze (w częstym sensie stronniczości). Zobacz na przykład http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Twierdzenie 5.
Podsumowując: Większość popularnych estymatorów częstokroć dąży do zachowania obiektywności, podczas gdy wszystkie estymatory Bayesa są stronnicze. Tak więc Bayes i estymatorzy częstokrzyści rzadko się pokrywają.
źródło
To nie jest pełna odpowiedź, ale podczas tych dwóch „s wyglądają bardzo podobnie, ale różnią się zasadniczo w taki sposób: jeden Bayesa minimalizuje wyrażenie w odniesieniu do pojedynczej wartości (czyli wartość x ( y ) , w zależności od y ).argmin x^(y) y
Ale Frequentist musi zminimalizować funkcję straty w odniesieniu do pojedynczej wartości dla każdej wartości, którą może przyjąć, nie znając x . To dlatego, że minimum funkcji f ( x , x ) = E ( L ( x - x ( Y ) ) | x ) w zależności od x , chociaż należy zminimalizować bez znajomości X . (Zauważ, że jeśli chcemy po prostu zminimalizować f ( x , x )x x f(x,x^)=E(L(x−x^(Y))|x) x x f(x,x^) wrt x , chcemy po prostu uzyskać wartość zminimalizowanie x = x ). częstościowym problemem jest zatem niezdefiniowane. Nie jestem pewien, czy można w ogóle dobrze to zdefiniować.x^ x^=x
źródło
Może nie istnieć odpowiedź na to pytanie.
Alternatywą może być zapytanie o metody skutecznego ustalenia dwóch oszacowań dla każdego problemu. Metody bayesowskie są bardzo zbliżone do tego ideału. Jednakże, chociaż metody minimax można zastosować do ustalenia częstościowego oszacowania punktowego, ogólnie stosowanie metody minimax pozostaje trudne i zwykle nie jest stosowane w praktyce.
Inną alternatywą byłoby przeformułowanie pytania o warunki, w jakich estymatory bayesowskie i częstokrzyskie zapewniają „spójne” wyniki i próbują znaleźć metody efektywnego obliczania tych estymatorów. Przyjmuje się, że „spójny” sugeruje, że estymatory bayesowskie i częstokrzyskie wywodzą się ze wspólnej teorii i że dla obu estymatorów zastosowano to samo kryterium optymalności. To bardzo różni się od próby przeciwstawienia się statystykom bayesowskim i częstokrzyskim i może sprawić, że powyższe pytanie stanie się zbędne. Jednym z możliwych podejść jest ukierunkowanie, zarówno w przypadku częstego, jak i przypadku bayesowskiego, na zestawy decyzji, które minimalizują straty dla danego rozmiaru, tj. Zgodnie z propozycją
Schafer, Chad M. i Philip B. Stark. „Konstruowanie regionów zaufania o optymalnej oczekiwanej wielkości”. Journal of American Statistics Association 104.487 (2009): 1080-1089.
Okazuje się, że jest to możliwe - zarówno w przypadku częstego, jak i bayesowskiego - poprzez włączenie preferencji obserwacji i parametrów z dużą punktową wzajemną informacją. Zestawy decyzji nie będą identyczne, ponieważ zadawane pytanie jest inne:
Jednak zestawy będą się na siebie w dużym stopniu nakładać i w niektórych sytuacjach staną się identyczne, jeśli zostaną użyte płaskie priory. Pomysł został omówiony bardziej szczegółowo wraz ze skutecznym wdrożeniem w
Bartels, Christian (2015): Ogólne i konsekwentne zaufanie oraz wiarygodne regiony. figshare. https://doi.org/10.6084/m9.figshare.1528163
W przypadku priorytów informacyjnych zestawy decyzji różnią się bardziej (co jest powszechnie znane i zostało wskazane w pytaniu i odpowiedziach powyżej). Jednak w spójnych ramach uzyskuje się częste testy, które gwarantują pożądane pokrycie częstych, ale uwzględniają wcześniejszą wiedzę.
Bartels, Christian (2017): Wykorzystanie wcześniejszej wiedzy w testach częstych. figshare. https://doi.org/10.6084/m9.figshare.4819597
W proponowanych metodach wciąż brakuje skutecznego wdrożenia marginalizacji.
źródło