Jakie są / lub niejawne priory w statystyce częstokrzyskiej?

20

Słyszałem, że Jaynes twierdzi, że częstokroć operatorzy działają „z ukrytym uprzedzeniem”.

Co to są lub są te ukryte priorytety? Czy to oznacza, że ​​modele częste to wszystkie specjalne przypadki modeli bayesowskich, które czekają na odkrycie?

Bayesquest
źródło
Implikowany uprzedni to rozkład zdegenerowany, który stawia całą masę prawdopodobieństwa na θ , parametrze, który częsty bayesowski próbuje oszacować.
Dilip Sarwate
3
O ile mi wiadomo, nie ma modelu częstego ani bayesowskiego, istnieją tylko modele i różne podejścia do nich.
Andrey Kolyadin,
3
@DilipSarwate: Nie zgadzam się z tym stwierdzeniem. Użycie masy Diraca jako wcześniej nie wywołuje częstych procedur. A paradygmat bayesowski nie zezwala na priory z nieznanymi parametrami, z wyjątkiem sytuacji, gdy ustawia się inny uprzedni parametr.
Xi'an
2
Zawsze jest przeorat bez względu na wszystko. Niestety wszystkie procedury statystyczne wymagają ad hoc punktu wyjścia, co czyni je bardzo arbitralnymi. Dobrą rzeczą jest zapewnienie wystarczającej ilości danych i poprawnej metodologii, aby zbliżyć się do celu. Złą rzeczą jest to, jak daleko kończysz od miejsca docelowego, zależy od tego, gdzie zaczynasz i ile masz danych pod ręką.
Cagdas Ozgenc
2
@Cagdas Ozgenc: Nie, zawsze są założenia , ale nie muszą one przyjmować formy wcześniejszych dystrybucji.
kjetil b halvorsen

Odpowiedzi:

17

W teorii decyzji częstokrzyskich istnieją pełne wyniki klas, które charakteryzują dopuszczalne procedury jako procedury Bayesa lub jako limity procedur Bayesa. Na przykład Stein warunek konieczny i wystarczający (Stein. 1955; Farrell, 1968b) stwierdza, że ​​przy następujących założeniach

  1. gęstość próbkowania jest ciągła w θ i ściśle dodatnia dla Θ ; if(x|θ)θΘ
  2. funkcja straty jest ściśle wypukła, ciągła, a jeśli E Θ jest zwarta, lim δ + inf θ E L ( θ , δ ) = + .LEΘ
    limδ+infθEL(θ,δ)=+.

estymator jest dopuszczalny tylko wtedy, gdy istniejeδ

  • sekwencja rosnących zestawów zwartych, tak że Θ = n F n ,(Fn)Θ=nFn
  • sekwencja miar skończonych ze wsparciem F n , i(πn)Fn
  • sekwencja estymatorów Bayesa związana z π n taka, że(δn)πn

    1. istnieje zestaw zwarty taki, że inf n π n ( E 0 ) 1E0Θinfnπn(E0)1
    2. jeśli jest zwarty, sup n π n ( E ) < + EΘsupnπn(E)<+
    3. ilimnr(πn,δ)r(πn)=0
    4. .limnR(θ,δn)=R(θ,δ)

[reprodukowane z mojej książki, Bayesian Choice , Theorem 8.3.0, s. 407]

W tym ograniczonym znaczeniu częstokroć właściwość dopuszczalności jest obdarzona tłem bayesowskim, stąd kojarzy się dorozumiany uprzedni (lub jego ciąg) z każdym dopuszczalnym estymatorem.

Sidenote: Smutny przypadek, że Charles Stein zmarł 25 listopada w Palo Alto w Kalifornii. Miał 96 lat.

Istnieje podobny (jeśli uwzględniony matematycznie) wynik dla oszacowania niezmiennego lub ekwiwariantowego, a mianowicie, że najlepszym estymatorem ekwiwariantnym jest estymator Bayesa dla każdej grupy przechodniej działającej na modelu statystycznym, związany z właściwą miarą Haara, , indukowaną na Θ przez tę grupę i odpowiadającą jej niezmienniczą stratę. Szczegółowe informacje można znaleźć w Pitman (1939), Stein (1964) lub Zidek (1969). Najprawdopodobniej właśnie to miał na myśli Jaynes , który przekonywał siłą o rozwiązaniu paradoksów marginalizacji według zasad niezmienniczości .πΘ

Ponadto, jak wyszczególniono w odpowiedzi „ Civilstat” , inne częste pojęcie optymalności, a mianowicie minimaxity, jest również powiązane z procedurami bayesowskimi, ponieważ procedura minimax, która minimalizuje błąd maksymalny (w przestrzeni parametrów), jest często procedurą maksymiminy, która maksymalizuje błąd minimalny ( we wszystkich wcześniejszych dystrybucjach), dlatego jest to procedura Bayesa lub limit procedur Bayesa.

P .: Czy jest jakieś ekscytujące jedzenie na wynos, którego mogę użyć, aby przenieść moją bayesowską intuicję na modele dla częstych?

Najpierw unikałbym używania terminu „model częstokroć”, ponieważ istnieją modele próbkowania (dane to realizacja XxXf(x|θ)θ9595

Xi'an
źródło
1
Dziękuję bardzo. Jako nowicjusz, czy jest coś na wynos, którego można użyć do przeniesienia mojej bayesowskiej intuicji na modele dla częstych? tj. (ten GLM jest podobny do x przed y, lub ten lasso jest jak xyz bayesowski).
Bayesquest,
1
Czy mógłbyś też rzucić okiem na moje inne pytanie tutaj: stats.stackexchange.com/questions/247850/ ... Wiem, że zaproponowałeś jakieś rozwiązania problemu kruchej bayesowskiej ... ale mam wrażenie, że rozwiązania nie są solidne lub łatwe do opanowania przez naukowca społecznego.
Bayesquest,
1
W przypadku pierwszego komentarza oto kilka przykładów tego, o czym mówiłem: - Sieci neuronowe i lekarze ogólni - stats.stackexchange.com/questions/71782/… - sumsar.net/blog/2015/04/… - [ Nieparametryczny Bayesian (npB) pointof-view pozwala interpretować lasy jako próbkę z tyłu nad drzewami] ( arxiv.org/pdf/1502.02312.pdf )
Bayesquest,
Pracowaliśmy nad przybliżonym wnioskowaniem bayesowskim z losowymi lasami i stwierdziliśmy, że zmienność wynikająca z tego narzędzia była raczej niezwiązana z pierwotnym tylnym. Oczywiście nie oznacza to, że nie pozwala na interpretację bayesowską, ale mimo to ...
Xi'an
12

Odpowiedź Xi'ana jest bardziej kompletna. Ale skoro poprosiłeś także o mdłe dania na wynos, oto jeden. (Pojęcia, o których wspominam, nie są dokładnie takie same jak powyższe ustawienia dopuszczalności.)

θθ^ „s najgorszym przypadku ryzyka powinna być lepsza niż najgorszym ryzyko jakichkolwiek innych Estymator jest. Okazuje się, że MLE są często (w przybliżeniu) minimax. Zobacz szczegóły, np. Tutaj lub tutaj .

ππ , że estymator Bayesa to minimax.

W tym sensie można by rzetelnie powiedzieć: Frequentist (wykorzystujący minimax) jest jak Bayesian, który wybrał (szacunek punktowy na podstawie) najmniej korzystnego przeora.

Być może mógłbyś to streścić, mówiąc: taki częsty jest konserwatywnym bayesowskim, wybierając nie subiektywne priory lub nawet nieinformacyjne priory, ale (w tym konkretnym sensie) najgorsze przypadki.

Wreszcie, jak powiedzieli inni, porównywanie Częstotliwości i Bayesianów w ten sposób jest bardzo trudne. Bycie częstym specjalistą niekoniecznie oznacza, że używasz określonego estymatora. Oznacza to po prostu, że zadajesz pytania dotyczące właściwości próbkowania estymatora, podczas gdy pytania te nie są najwyższym priorytetem Bayesian. (Tak więc każdy Bayesjan, który ma nadzieję na dobre właściwości próbkowania, np. „Skalibrowane Bayes”, jest również częstym uczestnikiem.)
Nawet jeśli zdefiniujesz częstego uczestnika jako tego, którego estymatorzy zawsze mają optymalne właściwości próbkowania, istnieje wiele takich właściwości i nie zawsze możesz spotkaj ich wszystkich naraz. Trudno więc mówić ogólnie o „wszystkich modelach dla częstych”.

Civilstat
źródło
4
Myślałem, że dorozumiany uprzedni dla częstych analiz byłby jakimś jednolitym uprzednim.
Michael R. Chernick
5
Czasami może być. Możesz myśleć o MLE jako o oszacowaniu MAP przy użyciu jednolitego przeora. Ale MLE nie są jedynym narzędziem, z którego korzystają częstokroć.
civilstat
1α1α