Obecnie czytam o Bayesian Methods in Computation Molecular Evolution autorstwa Yang. W rozdziale 5.2 mówi o priory, a konkretnie nieinformacyjne / płaskie / niejasne / rozproszone, sprzężone i hiper-priory.
Może to wymagać uproszczenia, ale czy ktoś mógłby wyjaśnić po prostu różnicę między tego rodzaju priorytetami i jak to wpływa na wynik analizy / decyzji, które podejmowałbym w trakcie analizy bayesowskiej?
(Nie jestem statystykiem i dopiero zaczynam naukę analiz bayesowskich, więc im bardziej laik, tym lepiej)
Na najwyższym poziomie możemy myśleć o wszelkiego rodzaju priorytetach jako o określeniu pewnej ilości informacji, które badacz wnosi do analizy poza danymi: przed spojrzeniem na dane, które wartości parametrów są bardziej prawdopodobne?
W ciemnych czasach analizy bayesowskiej, kiedy Bayesianie walczyli z nią z częstymi, było przekonanie, że badacz chciałby wprowadzić do analizy tak mało informacji, jak to możliwe. Było więc wiele badań i argumentów poświęconych zrozumieniu, w jaki sposób przeor może być w ten sposób „nieinformacyjny”. Dzisiaj Gelman sprzeciwia się automatycznemu wyborowi nieinformacyjnych priorów, mówiąc w Bayesian Data Analysisże opis „nieinformacyjny” odzwierciedla jego stosunek do przeora, a nie jakiekolwiek „specjalne” matematyczne cechy przeora. (Co więcej, we wczesnej literaturze pojawiło się pytanie, w jakiej skali przeor nie ma charakteru informacyjnego. Nie sądzę, że jest to szczególnie ważne w przypadku twojego pytania, ale na dobry przykład tego argumentu z częstej perspektywy patrz początek Gary'ego Kinga, Unifying Political Methodology. )
„Płaski” uprzedni oznacza jednolity uprzedni, w którym wszystkie wartości w zakresie są jednakowo prawdopodobne. Ponownie należy argumentować, czy są one naprawdę nieinformacyjne, ponieważ określenie, że wszystkie wartości są jednakowo prawdopodobne, jest w pewien sposób informacją i może być wrażliwe na sposób parametryzacji modelu. Płaskie priory mają długą historię w analizie bayesowskiej, sięgającą Bayesa i Laplace'a.
„Niejasny” uprzedni jest wysoce rozproszony, choć niekoniecznie płaski, i wyraża, że duży zakres wartości jest prawdopodobny, zamiast koncentrować masę prawdopodobieństwa wokół określonego zakresu. Zasadniczo jest to przeor o dużej wariancji (cokolwiek „duża” wariancja oznacza w twoim kontekście).
Sprzężone priory mają wygodną cechę, która pomnożona przez odpowiednie prawdopodobieństwo, daje wyrażenie w formie zamkniętej. Jednym z przykładów jest wcześniejszy beta z prawdopodobieństwem dwumianowym lub wcześniejszy gamma z prawdopodobieństwem poissona. Pomocne tabele znajdują się w Internecie i Wikipedii. Rodzina wykładnicza jest pod tym względem wyjątkowo wygodna.
Sprzężone priory są często „domyślnym” wyborem dla niektórych problemów ze względu na ich dogodne właściwości, ale to niekoniecznie oznacza, że są one „najlepsze”, chyba że wcześniejsza wiedza może być wyrażona za pomocą wcześniejszego sprzężenia. Postępy w obliczeniach oznaczają, że koniugacja nie jest tak cenna jak kiedyś (por. Próbkowanie Gibbsa vs NUTS), dzięki czemu możemy łatwiej wnioskować z niekoniugowanych priorów bez większych problemów.
źródło