Podczas przeprowadzania wnioskowania bayesowskiego działamy, maksymalizując naszą funkcję prawdopodobieństwa w połączeniu z priorytetami dotyczącymi parametrów. Ponieważ prawdopodobieństwo logarytmiczne jest wygodniejsze, skutecznie maksymalizujemy za pomocą MCMC lub w inny sposób, który generuje rozkłady późniejsze (używając pdf dla każdego parametru przed prawdopodobieństwem przed i dla każdego punktu danych).
Jeśli mamy dużo danych, prawdopodobieństwo, że z tego wyniknie, przytłoczy wszelkie informacje dostarczone przez uprzedniego, przez prostą matematykę. Ostatecznie jest to dobre i zgodne z projektem; wiemy, że a posterior zbiegnie się z prawdopodobieństwem z większą ilością danych, ponieważ tak jest.
W przypadku problemów określonych przez sprzężone priory jest to nawet możliwe do udowodnienia.
Czy istnieje sposób, aby zdecydować, kiedy priory nie mają znaczenia dla danej funkcji prawdopodobieństwa i wielkości próby?
Odpowiedzi:
To nie jest takie proste. Informacje w twoich danych przytłaczają wcześniejsze informacje, nie tylko wielkość próbki jest duża, ale gdy twoje dane dostarczają wystarczających informacji, aby przytłoczyć wcześniejsze informacje. Nieinformacyjne priory dają się łatwo przekonać na podstawie danych, podczas gdy te silnie informacyjne mogą być bardziej odporne. W skrajnym przypadku, w przypadku źle zdefiniowanych priorytetów, Twoje dane mogą w ogóle nie być w stanie go pokonać (np. Zerowa gęstość w niektórych regionach).
Przypomnijmy, że według twierdzenia Bayesa w naszym modelu statystycznym wykorzystujemy dwa źródła informacji: brak danych, wcześniejsze informacje i informacje przekazywane przez dane w funkcji prawdopodobieństwa :
Korzystając z nieinformacyjnych uprzednich (lub maksymalnych prawdopodobieństw), staramy się wprowadzić minimalne możliwe wcześniejsze informacje do naszego modelu. Dzięki informacyjnym priory wprowadzamy do modelu znaczną ilość informacji. Tak więc zarówno dane, jak i wcześniejsze informują nas, jakie wartości szacowanych parametrów są bardziej prawdopodobne lub wiarygodne. Mogą przynieść różne informacje, a niektóre z nich mogą w niektórych przypadkach obezwładnić drugą.
Pozwól, że zilustruję to bardzo podstawowym modelem dwumianowym (zobacz tutaj szczegółowy przykład ). W przypadku „nieinformacyjnego” wcześniej dość mała próbka może być wystarczająca, aby ją obezwładnić. Na poniższych wykresach można zobaczyć priory (czerwona krzywa), prawdopodobieństwo (krzywa niebieska) i boczne (krzywa fioletowa) tego samego modelu o różnych wielkościach próby.
Z drugiej strony, możesz mieć pouczające wcześniejsze, które są zbliżone do prawdziwej wartości, które również byłyby łatwe, ale nie tak łatwe jak w przypadku cotygodniowego informacyjnego, przekonanego przez dane.
Sprawa wygląda zupełnie inaczej w przypadku informacji z wyprzedzeniem, gdy jest daleka od tego, co mówią dane (używając tych samych danych, co w pierwszym przykładzie). W takim przypadku potrzebujesz większej próbki, aby pokonać wcześniejsze.
Więc nie chodzi tylko o wielkość próby, ale także o to, jakie są twoje dane i jaki jest twój poprzednik. Zauważ, że jest to pożądane zachowanie, ponieważ podczas korzystania z pouczających priorów chcemy potencjalnie uwzględnić w naszym modelu informacje o braku danych, a byłoby to niemożliwe, gdyby duże próbki zawsze odrzucały priory.
Ze względu na skomplikowane relacje wcześniejszego prawdopodobieństwa a posteriori zawsze dobrze jest spojrzeć na rozkład a posteriori i wykonać pewne kontrole predykcyjne z tyłu (Gelman, Meng i Stern, 1996; Gelman i Hill, 2006; Gelman i in., 2004). Co więcej, jak opisano w Spiegelhalter (2004), możesz użyć różnych priorytetów, na przykład „pesymistycznych”, które wyrażają wątpliwości co do dużych efektów, lub „entuzjastycznych”, które są optymistyczne co do szacowanych efektów. Porównanie tego, jak zachowują się różni priory z twoimi danymi, może pomóc w nieformalnej ocenie stopnia, w jakim wpływ na przeszłość miał wcześniejszy.
Spiegelhalter, DJ (2004). Włączenie pomysłów bayesowskich do oceny opieki zdrowotnej. Nauka statystyczna, 156-174.
Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2004). Analiza danych bayesowskich. Chapman & Hall / CRC.
Gelman, A. and Hill, J. (2006). Analiza danych za pomocą regresji i modeli wielopoziomowych / hierarchicznych. Cambridge University Press.
Gelman, A., Meng, XL i Stern, H. (1996). Tylna predykcyjna ocena sprawności modelu na podstawie stwierdzonych rozbieżności. Statistica sinica, 733-760.
źródło
To nie jest tak naprawdę to, co większość praktykujących uważa za wnioskowanie bayesowskie. W ten sposób można oszacować parametry, ale nie nazwałbym tego wnioskowaniem Bayesowskim.
Bayesa wnioskowanie zastosowania tylne dystrybucji do obliczania prawdopodobieństwa a posteriori (lub stosunek prawdopodobieństw) dla konkurujących hipotez.
Rozkłady tylne można oszacować empirycznie za pomocą technik Monte Carlo lub Markov-Chain Monte Carlo (MCMC).
Odkładając na bok te rozróżnienia, pytanie
nadal zależy od kontekstu problemu i tego, na czym ci zależy.
Jeśli liczysz się z prognozowaniem na podstawie i tak już bardzo dużej próbki, wówczas odpowiedź brzmi tak, priorytety są asymptotycznie nieistotne *. Jeśli jednak zależy Ci na wyborze modelu i testowaniu hipotezy bayesowskiej, odpowiedź brzmi nie, priorytety mają duże znaczenie, a ich działanie nie pogorszy się wraz z rozmiarem próby.
* Tutaj zakładam, że priory nie są obcinane / cenzurowane poza przestrzenią parametrów wynikającą z prawdopodobieństwa i że nie są tak źle określone, aby powodować problemy z konwergencją o gęstości prawie zerowej w ważnych regionach. Mój argument jest również asymptotyczny, co wiąże się ze wszystkimi zwykłymi zastrzeżeniami.
Przewidywalne gęstości
Wybór modelu i testowanie hipotez
Jeśli ktoś jest zainteresowany wyborem modelu Bayesa i testowaniem hipotez, powinien mieć świadomość, że efekt wcześniejszego nie zanika asymptotycznie.
Czynnikiem Bayesa między dwoma alternatywnymi modelami jest stosunek ich krańcowych prawdopodobieństw;
For the above models, the marginal likelihoods are calculated as;
However, we can also think about sequentially adding observations to our sample, and write the marginal likelihood as a chain of predictive likelihoods;
źródło
Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.
As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.
And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!
źródło