Czy priory bayesowskie stają się nieistotne przy dużej liczebności próby?

26

Podczas przeprowadzania wnioskowania bayesowskiego działamy, maksymalizując naszą funkcję prawdopodobieństwa w połączeniu z priorytetami dotyczącymi parametrów. Ponieważ prawdopodobieństwo logarytmiczne jest wygodniejsze, skutecznie maksymalizujemy ln(prior)+ln(likelihood) za pomocą MCMC lub w inny sposób, który generuje rozkłady późniejsze (używając pdf dla każdego parametru przed prawdopodobieństwem przed i dla każdego punktu danych).

Jeśli mamy dużo danych, prawdopodobieństwo, że z tego wyniknie, przytłoczy wszelkie informacje dostarczone przez uprzedniego, przez prostą matematykę. Ostatecznie jest to dobre i zgodne z projektem; wiemy, że a posterior zbiegnie się z prawdopodobieństwem z większą ilością danych, ponieważ tak jest.

W przypadku problemów określonych przez sprzężone priory jest to nawet możliwe do udowodnienia.

Czy istnieje sposób, aby zdecydować, kiedy priory nie mają znaczenia dla danej funkcji prawdopodobieństwa i wielkości próby?

piksele
źródło
3
Twoje pierwsze zdanie jest nieprawidłowe. Wnioskowanie bayesowskie i algorytm MCMC nie maksymalizują prawdopodobieństwa.
niandra82,
5
Czy znasz marginalną wiarygodność, czynniki Bayesa, rozkład predykcyjny przed / za, predykcyjną kontrolę przed / za? tego rodzaju rzeczy można by użyć do porównania modeli w paradygmacie bayesowskim. Myślę, że to pytanie sprowadza się do tego, czy czynnik Bayesa, między modelami, które różnią się tylko ich wcześniejszymi, zbiegnie się do 1, gdy wielkość próbki osiągnie nieskończoność. Możesz także odłożyć na bok priory, które są obcinane w przestrzeni parametrów implikowanej przez prawdopodobieństwo, ponieważ może to potencjalnie uniemożliwić celowi zbliżenie się do oszacowania maksymalnego prawdopodobieństwa.
Zachary Blumenfeld,
@ZacharyBlumenfeld: może to być poprawna odpowiedź!
Xi'an,
Czy poprawiona forma „maksymalizuje zasadę Bayesa”? Ponadto modele, z którymi pracuję, są oparte na fizyce, więc przestrzenie parametrów są niezbędne do pracy. (Zgadzam się również, że twoje komentarze są prawdopodobnie odpowiedzią, czy możesz je uzupełnić @ZacharyBlumenfeld?)
piksele

Odpowiedzi:

37

To nie jest takie proste. Informacje w twoich danych przytłaczają wcześniejsze informacje, nie tylko wielkość próbki jest duża, ale gdy twoje dane dostarczają wystarczających informacji, aby przytłoczyć wcześniejsze informacje. Nieinformacyjne priory dają się łatwo przekonać na podstawie danych, podczas gdy te silnie informacyjne mogą być bardziej odporne. W skrajnym przypadku, w przypadku źle zdefiniowanych priorytetów, Twoje dane mogą w ogóle nie być w stanie go pokonać (np. Zerowa gęstość w niektórych regionach).

Przypomnijmy, że według twierdzenia Bayesa w naszym modelu statystycznym wykorzystujemy dwa źródła informacji: brak danych, wcześniejsze informacje i informacje przekazywane przez dane w funkcji prawdopodobieństwa :

posteriorprior×prawdopodobieństwo

Korzystając z nieinformacyjnych uprzednich (lub maksymalnych prawdopodobieństw), staramy się wprowadzić minimalne możliwe wcześniejsze informacje do naszego modelu. Dzięki informacyjnym priory wprowadzamy do modelu znaczną ilość informacji. Tak więc zarówno dane, jak i wcześniejsze informują nas, jakie wartości szacowanych parametrów są bardziej prawdopodobne lub wiarygodne. Mogą przynieść różne informacje, a niektóre z nich mogą w niektórych przypadkach obezwładnić drugą.

Pozwól, że zilustruję to bardzo podstawowym modelem dwumianowym (zobacz tutaj szczegółowy przykład ). W przypadku „nieinformacyjnego” wcześniej dość mała próbka może być wystarczająca, aby ją obezwładnić. Na poniższych wykresach można zobaczyć priory (czerwona krzywa), prawdopodobieństwo (krzywa niebieska) i boczne (krzywa fioletowa) tego samego modelu o różnych wielkościach próby.

wprowadź opis zdjęcia tutaj

Z drugiej strony, możesz mieć pouczające wcześniejsze, które są zbliżone do prawdziwej wartości, które również byłyby łatwe, ale nie tak łatwe jak w przypadku cotygodniowego informacyjnego, przekonanego przez dane.

wprowadź opis zdjęcia tutaj

Sprawa wygląda zupełnie inaczej w przypadku informacji z wyprzedzeniem, gdy jest daleka od tego, co mówią dane (używając tych samych danych, co w pierwszym przykładzie). W takim przypadku potrzebujesz większej próbki, aby pokonać wcześniejsze.

wprowadź opis zdjęcia tutaj

Więc nie chodzi tylko o wielkość próby, ale także o to, jakie są twoje dane i jaki jest twój poprzednik. Zauważ, że jest to pożądane zachowanie, ponieważ podczas korzystania z pouczających priorów chcemy potencjalnie uwzględnić w naszym modelu informacje o braku danych, a byłoby to niemożliwe, gdyby duże próbki zawsze odrzucały priory.

Ze względu na skomplikowane relacje wcześniejszego prawdopodobieństwa a posteriori zawsze dobrze jest spojrzeć na rozkład a posteriori i wykonać pewne kontrole predykcyjne z tyłu (Gelman, Meng i Stern, 1996; Gelman i Hill, 2006; Gelman i in., 2004). Co więcej, jak opisano w Spiegelhalter (2004), możesz użyć różnych priorytetów, na przykład „pesymistycznych”, które wyrażają wątpliwości co do dużych efektów, lub „entuzjastycznych”, które są optymistyczne co do szacowanych efektów. Porównanie tego, jak zachowują się różni priory z twoimi danymi, może pomóc w nieformalnej ocenie stopnia, w jakim wpływ na przeszłość miał wcześniejszy.


Spiegelhalter, DJ (2004). Włączenie pomysłów bayesowskich do oceny opieki zdrowotnej. Nauka statystyczna, 156-174.

Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2004). Analiza danych bayesowskich. Chapman & Hall / CRC.

Gelman, A. and Hill, J. (2006). Analiza danych za pomocą regresji i modeli wielopoziomowych / hierarchicznych. Cambridge University Press.

Gelman, A., Meng, XL i Stern, H. (1996). Tylna predykcyjna ocena sprawności modelu na podstawie stwierdzonych rozbieżności. Statistica sinica, 733-760.

Tim
źródło
2
Niezły wkład, dziękuję Tim. Chciałbym dodać, że kontrast, który tak ładnie nałożysz, może prezentować się nawet w jednym i tym samym modelu, co związany z różnymi parametrami tego modelu. Mogą istnieć pewne parametry, o których dane dostarczają nieistotnych informacji, w którym to przypadku priory mogą służyć krytycznie w celu zapewnienia ograniczeń identyfikacyjnych .
David C. Norris,
Czy w pierwszej macierzy 3x3 wykresów są prawidłowe? Tylny jest całkowicie płaski do n = 25 włącznie?
MichiganWater
1
@MichiganWater każda kolekcja 9-wykresów używa tej samej skali dla osi y, aby największe wartości nie wychodziły z ekranu. Są więc płaskie w stosunku do przypadku, gdy masz więcej danych. Jeśli „powiększysz”, nie będą one płaskie.
Tim
11

Podczas przeprowadzania wnioskowania bayesowskiego działamy, maksymalizując naszą funkcję prawdopodobieństwa w połączeniu z priorytetami, które mamy o parametrach.

To nie jest tak naprawdę to, co większość praktykujących uważa za wnioskowanie bayesowskie. W ten sposób można oszacować parametry, ale nie nazwałbym tego wnioskowaniem Bayesowskim.

Bayesa wnioskowanie zastosowania tylne dystrybucji do obliczania prawdopodobieństwa a posteriori (lub stosunek prawdopodobieństw) dla konkurujących hipotez.

Rozkłady tylne można oszacować empirycznie za pomocą technik Monte Carlo lub Markov-Chain Monte Carlo (MCMC).

Odkładając na bok te rozróżnienia, pytanie

Czy priory bayesowskie stają się nieistotne przy dużej liczebności próby?

nadal zależy od kontekstu problemu i tego, na czym ci zależy.

Jeśli liczysz się z prognozowaniem na podstawie i tak już bardzo dużej próbki, wówczas odpowiedź brzmi tak, priorytety są asymptotycznie nieistotne *. Jeśli jednak zależy Ci na wyborze modelu i testowaniu hipotezy bayesowskiej, odpowiedź brzmi nie, priorytety mają duże znaczenie, a ich działanie nie pogorszy się wraz z rozmiarem próby.

* Tutaj zakładam, że priory nie są obcinane / cenzurowane poza przestrzenią parametrów wynikającą z prawdopodobieństwa i że nie są tak źle określone, aby powodować problemy z konwergencją o gęstości prawie zerowej w ważnych regionach. Mój argument jest również asymptotyczny, co wiąże się ze wszystkimi zwykłymi zastrzeżeniami.

Przewidywalne gęstości

dN=(d1,d2,...,dN)dif(dNθ)θ

π0(θλ1)π0(θλ2)λ1λ2

πN(θdN,λj)f(dNθ)π0(θλj)forj=1,2

θθNjπN(θdN,λj)θ^N=maxθ{f(dNθ)}θN1θN2θ^Nθε>0

limNPr(|θNjθ|ε)=0j{1,2}limNPr(|θ^Nθ|ε)=0

θNj=maxθ{πN(θdN,λj)}

f(d~dN,λj)=Θf(d~θ,λj,dN)πN(θλj,dN)dθf(d~dN,θNj)fa(re~reN.,θ)

Wybór modelu i testowanie hipotez

Jeśli ktoś jest zainteresowany wyborem modelu Bayesa i testowaniem hipotez, powinien mieć świadomość, że efekt wcześniejszego nie zanika asymptotycznie.

fa(reN.moremil).

Czynnikiem Bayesa między dwoma alternatywnymi modelami jest stosunek ich krańcowych prawdopodobieństw;

KN=f(dNmodel1)f(dNmodel2)
The posterior probability for each model in a set of models can also be calculated from their marginal likelihoods as well;
Pr(modeljdN)=f(dNmodelj)Pr(modelj)l=1Lf(dNmodell)Pr(modell)
These are useful metrics used to compare models.

For the above models, the marginal likelihoods are calculated as;

f(dNλj)=Θf(dNθ,λj)π0(θλj)dθ

However, we can also think about sequentially adding observations to our sample, and write the marginal likelihood as a chain of predictive likelihoods;

f(dNλj)=n=0N1f(dn+1dn,λj)
From above we know that f(dN+1dN,λj) converges to f(dN+1dN,θ), but it is generally not true that f(dNλ1) converges to f(dNθ), nor does it converge to f(dNλ2). This should be apparent given the product notation above. While latter terms in the product will be increasingly similar, the initial terms will be different, because of this, the Bayes factor
f(dNλ1)f(dNλ2)p1
This is an issue if we wished to calculate a Bayes factor for an alternative model with different likelihood and prior. For example consider the marginal likelihood h(dNM)=Θh(dNθ,M)π0(θM)dθ; then
f(dNλ1)h(dNM)f(dNλ2)h(dNM)
asymptotically or otherwise. The same can be shown for posterior probabilities. In this setting the choice of the prior significantly effects the results of inference regardless of sample size.
Zachary Blumenfeld
źródło
5

Another issue to keep in mind is you can have a lot of data, but still have very little information about certain parameters in your model. In such cases, even a mildly informative prior can be extremely helpful when performing inference.

As a silly example, suppose you were comparing means of two groups and you had 1,000,000 samples of group 1 and 10 samples of group 2. Then clearly having an informative prior about group 2 can improve inference, even though you've collected over a million samples.

And while that example may be trivial, it starts to lead some very important implications. If we want to understand some complex phenomena, the smart thing to do is collect a lot of information regarding the parts we don't understand and less information about the parts we do understand. If we collect a lot of data in such a manner, throwing out the prior because we have a lot of data is a really bad choice; we've just set back our analysis because we didn't waste time collecting data on things we already know!

Cliff AB
źródło