Dlaczego istnieją zalecenia, aby nie używać Jeffreysa lub priorów opartych na entropii dla samplerów MCMC?

12

Na swojej stronie wiki twórcy Stana stwierdzają:

Niektóre zasady, których nie lubimy: niezmienność, Jeffreys, entropia

Zamiast tego widzę wiele normalnych zaleceń dotyczących dystrybucji. Do tej pory korzystałem z metod bayesowskich, które nie polegały na próbkowaniu, i byłem zadowolony, że zrozumiałem, dlaczego był dobrym wyborem dla prawdopodobieństw dwumianowych.θBeta(α=12),β=12))

wirrbel
źródło
1
Komentarz ogólny: Dokumentacja oprogramowania nie zawsze podsumowuje argumenty statystyczne dotyczące tego, co oprogramowanie robi i czego nie robi. Dotyczy to większości pakietów R, na które patrzyłem i nie jestem zaskoczony, że słyszę to samo o Stanie. Andrew Gelman jest oczywiście płodnym autorem.
Nick Cox,
1
Kolejny ogólny komentarz: Nie uważam tego rodzaju pytań za bardzo satysfakcjonujące, częściowo dlatego, że dotyczą konkretnych osób. Jeśli autorzy na żywo gdzieś nie wyjaśniają i nie są tu oczywiście aktywni, wyślij im e-mail z pytaniem. Bardziej satysfakcjonujące jest pytanie w sposób abstrakcyjny o względne zalety różnych podejść. Czasami słusznie jest powiedzieć, że zawsze możesz użyć innego oprogramowania, jeśli czegoś brakuje, w tym pisania własnego. Nieujawnianie: nigdy nie wykorzystano Stan.
Nick Cox,
@NickCox Nie sądzę, aby to pytanie skorzystało z anonimizacji, ponieważ (1) kontekst oprogramowania do pobierania próbek jest ważny (2) mam wrażenie, że odrzucenie priory Jeffreysa jest na tyle niezwykłe, że warto zwrócić uwagę że renomowane źródło tak twierdzi. (3) Nie sądzę, aby cytowanie kogoś w pytaniu było konfrontacyjne.
wirrbel
1
Andy napisał „Niektóre zasady, których nie lubimy: niezmienność, Jeffreys, entropia”, ale żeby zobaczyć, dlaczego powinieneś szukać w jego książce
Ben Goodrich,
1
Ponadto ten artykuł zawiera najnowsze przemyślenia na temat priorów wśród trzech programistów Stana.
Ben Goodrich,

Odpowiedzi:

13

Jest to oczywiście różnorodny zestaw ludzi z szerokim zakresem opinii, którzy spotykają się i tworzą wiki. Podsumowując znam / rozumiem z komentarzem:

  • Wybór wcześniejszej opcji w oparciu o wygodę obliczeniową jest niewystarczającym uzasadnieniem. Np. Używanie wersji beta (1/2, 1/2) wyłącznie dlatego, że umożliwia aktualizację sprzężoną, nie jest dobrym pomysłem. Oczywiście, kiedy dojdziesz do wniosku, że ma dobre właściwości dla rodzaju problemu, nad którym pracujesz, to jest w porządku i równie dobrze możesz dokonać wyboru, który ułatwi wdrożenie. Istnieje wiele przykładów, w których wygodne domyślne opcje okazują się problematyczne (patrz Gamna (0,001, 0,001) wcześniej, która umożliwia próbkowanie Gibbsa).

  • W przypadku Stana - w przeciwieństwie do WinBUGS lub JAGS - nie ma szczególnej przewagi nad (warunkowo) sprzężonymi priorytetami. Więc możesz po prostu zignorować nieco aspekt obliczeniowy. Nie do końca jednak, ponieważ z bardzo grubymi ogonami priory (lub niewłaściwymi priors) i danymi, które nie identyfikują parametrów dobrze, możesz napotkać problemy (nie jest to konkretny problem, ale Stan jest całkiem dobry w identyfikowaniu tych problemów i ostrzeganiu użytkownika zamiast radosnego próbkowania).

  • Priory Jeffreysa i innych „niskich informacji” mogą czasem być niewłaściwe lub nieco trudne do zrozumienia w dużych wymiarach (nie wspominając o ich uzyskaniu) i przy rzadkich danych. Być może autorzy zbyt często powodowali kłopoty, aby autorzy nigdy się z nimi nie czuli. Gdy już pracujesz nad czymś, uczysz się więcej i czujesz się komfortowo, stąd okazjonalne odwracanie opinii.

  • W rzadkich ustawieniach danych liczy się fakt, że wcześniejsze znaczenie ma znaczenie, a jeśli można określić, że całkowicie niewiarygodne wartości parametru są niewiarygodne, to bardzo pomaga. To motywuje ideę słabo informujących priorów - nie do końca pełnych informacji, ale takich, które najbardziej popierają wiarygodne wartości.

  • W rzeczywistości można się zastanawiać, dlaczego zawracamy sobie głowę nieinformacyjnymi priory, jeśli mamy dużo danych, które naprawdę dobrze identyfikują parametry (można po prostu użyć maksymalnego prawdopodobieństwa). Oczywiście istnieje wiele powodów (unikanie patologii, uzyskanie „prawdziwego kształtu” osób w wieku bocznym itp.), Ale w sytuacjach „dużej ilości danych” wydaje się, że nie ma prawdziwych argumentów przeciwko słabo informacyjnym przeorom.

  • Być może nieco dziwnie N (0, 1) jest zaskakująco przyzwoitym wcześniejszym współczynnikiem dla regresji logistycznej, Poissona lub Coxa dla wielu aplikacji. Np. Jest to bardzo przybliżony rozkład obserwowanych efektów leczenia w wielu badaniach klinicznych.
Björn
źródło
Dziękuję za szczegółową odpowiedź. Wydaje mi się, że moje zdziwienie nie tyle dotyczy koniugacji (ponieważ jeśli dobrze to rozumiem, priory Jeffreysa nie muszą być koniugatami sprzężonymi, po prostu muszą być niezmienne w ramach reparametryzacji). Zrozumiałbym więc całkowicie rady przeciw małżonkom aurorzy.
wirrbel
Myślę, że zmartwienie związane z przeorem Jeffreysa polega głównie na tym, że jest to jakiś przełożony wielowymiarowy, który może nie być właściwym przeorem i może mieć wpływ na twoje wnioskowanie, którego nie do końca rozumiesz. Myślę, że to głównie dotyczy rzadkich danych, chociaż być może ktoś może wskazać przykład danych nierzadkich, w których występują pewne problemy (nie jestem świadomy żadnych). Oprócz wcześniejszych Jeffreys i różnych innych „nieinformacyjnych” opcji, faktem jest, że trzeba je czerpać.
Björn
8

Nie podają uzasadnienia naukowego / matematycznego. Większość programistów nie działa na tego rodzaju priory i wolą używać bardziej pragmatycznych / heurystycznych priorów, takich jak normalne priory z dużymi wariancjami (które mogą być informacyjne w niektórych przypadkach). Dziwne jest jednak to, że po rozpoczęciu pracy nad tym tematem chętnie korzystają z komputerów PC opartych na Entropy (dywergencja KL).

Podobne zjawisko miało miejsce w przypadku WinBUGS , gdy programiści zalecili jako nieinformacyjny uprzedni parametr dokładności, ponieważ przypomina kształt wcześniejszej Jeffreys. Ten priorytet stał się domyślnym priorytetem dla parametrów dokładności. Później wykazano ( przez Gelmana! ), Że mogą być bardzo pouczające.solzammza(0,001,0,001)

Wcześniejszy
źródło
czy mógłbyś podać pouczający hiperłącze / źródło, zgodnie z roszczeniem Gelmana.
Jim
@Jim Pewnie, to jest gazeta: projecteuclid.org/euclid.ba/1340371048
Wcześniej