Na swojej stronie wiki twórcy Stana stwierdzają:
Niektóre zasady, których nie lubimy: niezmienność, Jeffreys, entropia
Zamiast tego widzę wiele normalnych zaleceń dotyczących dystrybucji. Do tej pory korzystałem z metod bayesowskich, które nie polegały na próbkowaniu, i byłem zadowolony, że zrozumiałem, dlaczego był dobrym wyborem dla prawdopodobieństw dwumianowych.
Odpowiedzi:
Jest to oczywiście różnorodny zestaw ludzi z szerokim zakresem opinii, którzy spotykają się i tworzą wiki. Podsumowując znam / rozumiem z komentarzem:
Wybór wcześniejszej opcji w oparciu o wygodę obliczeniową jest niewystarczającym uzasadnieniem. Np. Używanie wersji beta (1/2, 1/2) wyłącznie dlatego, że umożliwia aktualizację sprzężoną, nie jest dobrym pomysłem. Oczywiście, kiedy dojdziesz do wniosku, że ma dobre właściwości dla rodzaju problemu, nad którym pracujesz, to jest w porządku i równie dobrze możesz dokonać wyboru, który ułatwi wdrożenie. Istnieje wiele przykładów, w których wygodne domyślne opcje okazują się problematyczne (patrz Gamna (0,001, 0,001) wcześniej, która umożliwia próbkowanie Gibbsa).
W przypadku Stana - w przeciwieństwie do WinBUGS lub JAGS - nie ma szczególnej przewagi nad (warunkowo) sprzężonymi priorytetami. Więc możesz po prostu zignorować nieco aspekt obliczeniowy. Nie do końca jednak, ponieważ z bardzo grubymi ogonami priory (lub niewłaściwymi priors) i danymi, które nie identyfikują parametrów dobrze, możesz napotkać problemy (nie jest to konkretny problem, ale Stan jest całkiem dobry w identyfikowaniu tych problemów i ostrzeganiu użytkownika zamiast radosnego próbkowania).
Priory Jeffreysa i innych „niskich informacji” mogą czasem być niewłaściwe lub nieco trudne do zrozumienia w dużych wymiarach (nie wspominając o ich uzyskaniu) i przy rzadkich danych. Być może autorzy zbyt często powodowali kłopoty, aby autorzy nigdy się z nimi nie czuli. Gdy już pracujesz nad czymś, uczysz się więcej i czujesz się komfortowo, stąd okazjonalne odwracanie opinii.
W rzadkich ustawieniach danych liczy się fakt, że wcześniejsze znaczenie ma znaczenie, a jeśli można określić, że całkowicie niewiarygodne wartości parametru są niewiarygodne, to bardzo pomaga. To motywuje ideę słabo informujących priorów - nie do końca pełnych informacji, ale takich, które najbardziej popierają wiarygodne wartości.
W rzeczywistości można się zastanawiać, dlaczego zawracamy sobie głowę nieinformacyjnymi priory, jeśli mamy dużo danych, które naprawdę dobrze identyfikują parametry (można po prostu użyć maksymalnego prawdopodobieństwa). Oczywiście istnieje wiele powodów (unikanie patologii, uzyskanie „prawdziwego kształtu” osób w wieku bocznym itp.), Ale w sytuacjach „dużej ilości danych” wydaje się, że nie ma prawdziwych argumentów przeciwko słabo informacyjnym przeorom.
źródło
Nie podają uzasadnienia naukowego / matematycznego. Większość programistów nie działa na tego rodzaju priory i wolą używać bardziej pragmatycznych / heurystycznych priorów, takich jak normalne priory z dużymi wariancjami (które mogą być informacyjne w niektórych przypadkach). Dziwne jest jednak to, że po rozpoczęciu pracy nad tym tematem chętnie korzystają z komputerów PC opartych na Entropy (dywergencja KL).
Podobne zjawisko miało miejsce w przypadku WinBUGS , gdy programiści zalecili jako nieinformacyjny uprzedni parametr dokładności, ponieważ przypomina kształt wcześniejszej Jeffreys. Ten priorytet stał się domyślnym priorytetem dla parametrów dokładności. Później wykazano ( przez Gelmana! ), Że mogą być bardzo pouczające.G a m m a ( 0,001 ; 0,001 )
źródło