Tylny bardzo różni się od wcześniejszego i prawdopodobieństwa

21

Jeśli przeor i prawdopodobieństwo są bardzo różne od siebie, czasami zdarza się sytuacja, w której tylny nie jest podobny do żadnego z nich. Zobacz na przykład ten obraz, który wykorzystuje normalne rozkłady.

Zachowanie tylne

Chociaż jest to matematycznie poprawne, wydaje się, że nie jest to zgodne z moją intuicją - jeśli dane nie pasują do moich silnych przekonań lub danych, nie spodziewałbym się, że żaden zakres wypadnie dobrze i spodziewałbym się cały zakres, a może bimodalny rozkład wokół pierwszeństwa i prawdopodobieństwa (nie jestem pewien, co ma bardziej logiczny sens). Z pewnością nie oczekiwałbym ciasnego tylnego zakresu wokół zakresu, który nie pasuje do moich wcześniejszych przekonań ani danych. Rozumiem, że w miarę gromadzenia większej ilości danych, a posteriori zbliży się do prawdopodobieństwa, ale w tej sytuacji wydaje się to sprzeczne z intuicją.

Moje pytanie brzmi: w jaki sposób moje rozumienie tej sytuacji jest wadliwe (lub jest wadliwe). Czy tylna jest funkcją „poprawną” w tej sytuacji. A jeśli nie, to jak inaczej można go wymodelować?

Dla zachowania kompletności, pierwszeństwo podaje się jako a prawdopodobieństwo jako .N(μ=1.5,σ=0.4)N(μ=6.1,σ=0.4)

EDYCJA: Patrząc na niektóre z udzielonych odpowiedzi, wydaje mi się, że nie wyjaśniłem dobrze sytuacji. Chodzi mi o to, że analiza bayesowska wydaje się dawać nieintuicyjny wynik, biorąc pod uwagę założenia modelu. Miałem nadzieję, że a posterior w jakiś sposób „wytłumaczy” być może złe decyzje dotyczące modelowania, co na pewno nie jest prawdą. Rozwiążę to w mojej odpowiedzi.

Rónán Daly
źródło
2
Oznaczałoby to po prostu, że nie można założyć normalności tylnej. Jeśli założysz, że tylna część ciała jest normalna, to rzeczywiście byłoby to prawidłowe.
PascalVKooten
Nie przyjąłem żadnych założeń dotyczących a posteriori, tylko uprzedzenia i prawdopodobieństwa. W każdym razie forma dystrybucji wydaje się tutaj nieistotna - mógłbym je narysować ręcznie, a następnie ten sam a posterior.
Rónán Daly
Mówię tylko, że wyrzucisz swoją wiarę w ten tylny, jeśli nie zakładasz, że tylny może być normalny. Biorąc pod uwagę normalne wcześniejsze i normalne dane, normalny tylny rzeczywiście byłby taki. Być może wyobraź sobie małe dane, coś takiego może wtedy faktycznie wystąpić.
PascalVKooten
1
Czy ta liczba jest poprawna? Wydaje się, że prawdopodobieństwo przedtem powinno być bardzo bliskie zeru, ponieważ nigdy się nie pokrywają. Mam problem z dostrzeżeniem, jak twój tylny może zerknąć tam, ponieważ waga przeora jest bardzo bliska 0. Czy coś brakuje? ×
Luca
1
@Luca Zapomniałeś o ponownej normalizacji. Iloczyn wcześniejszego i prawdopodobieństwa jest bliski zeru, tak - ale kiedy ponownie go znormalizujesz i zintegruje się ponownie z 1, staje się to nieistotne.
Pat

Odpowiedzi:

5

Tak, taka sytuacja może wystąpić i jest cechą twoich założeń modelowania, w szczególności normalności w modelu wcześniejszym i modelu próbkowania (prawdopodobieństwo). Gdyby zamiast tego wybrałeś rozkład Cauchy'ego dla swojego przeora, późniejszy wyglądałby zupełnie inaczej.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Cauchy wcześniej, normalny model próbkowania

jaradniemi
źródło
Dzięki za odpowiedź @jaradniemi, czy uważasz, że przeor z Cauchy'ego zawsze unikałby konkretnej sytuacji podanej w pytaniu?
Rónán Daly,
1
Tak. Zasadniczo priory gruboogoniaste pozwalają na łatwiejsze przejęcie danych.
jaradniemi
2
jaradniemi, może tak być, ale jeśli mówisz, że nie chcesz, aby twoje wcześniejsze wpływały na tylną część ciała, dlaczego wybrałeś w pierwszej kolejności informacyjny przeor? Wygląda na to, że sugerujesz wybór cauchy, ponieważ wygląda na pouczające, ale tak naprawdę nie jest.
Florian Hartig,
1
Jeśli uprzednie i prawdopodobieństwo się zgadzają, wówczas otrzymujesz pożądany wzrost dokładności od przedniego do tylnego, a zatem uprzedni ma charakter informacyjny. Ale wybór grubego ogona pozwala na łatwe pokonanie przeora, gdy nie zgadzają się ze sobą.
jaradniemi
2

Nie zgadzam się z dotychczasowymi odpowiedziami - w tej sytuacji nie ma nic dziwnego. Prawdopodobieństwo jest i tak asymptotycznie normalne, a normalny przeor wcale nie jest wcale rzadki. Jeśli połączycie oba te elementy, z tym, że uprzedzenie i prawdopodobieństwo nie dają tej samej odpowiedzi, mamy sytuację, o której tu mówimy. Przedstawiłem to poniżej za pomocą kodu autorstwa jaradniemi.

Wspominamy w 1, że normalnym wnioskiem z takiej obserwacji byłoby to, że albo a) model jest strukturalnie błędny b) dane są błędne c) poprzedni jest błędny. Ale na pewno coś jest nie tak, i zobaczyłbyś to również, gdybyś przeprowadził kontrole przewidujące z tyłu, co i tak powinieneś zrobić.

1 Hartig, F .; Dyke, J .; Hickler, T .; Higgins, SI; O'Hara, RB; Scheiter, S. & Huth, A. (2012) Łączenie dynamicznych modeli roślinności z danymi - perspektywa odwrotna. J. Biogeogr., 39, 2240-2252. http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/abstract

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

wprowadź opis zdjęcia tutaj

Florian Hartig
źródło
2

Wydaje mi się, że odpowiedzi, której szukałem, jeśli chodzi o to pytanie, najlepiej podsumowują Lesaffre i Lawson w Bayesian Biostatistics

Tylnej dokładność jest sumą przed i próbki dokładności, to jest: To pokazuje, że tylna jest bardziej osiągnął niż przed i funkcja wiarygodności, co oznacza, że ​​a posterior zawiera więcej informacji o niż poprzednia i funkcja wiarygodności. Ta właściwość obowiązuje nawet wtedy, gdy prawdopodobieństwo i wcześniejsze są w konflikcie (w przeciwieństwie do przypadku dwumianowej wersji beta). Może się to wydawać sprzeczne z intuicją, ponieważ w przypadku sprzecznych informacji istnieje a posteriori więcej niepewności niż mniej niepewności. Zauważ, że ten wynik dotyczy tylko specjalnego i nierealistycznego przypadku znanego .μσ

1σ2)=w0+w1
μσ

To, co dla mnie to podsumowuje i jest z grubsza nakreślone w innych odpowiedziach, jest takie, że przypadek modelowania normalnych priorów z normalnym prawdopodobieństwem może skutkować sytuacją, w której tył jest bardziej precyzyjny niż którykolwiek z nich. Jest to sprzeczne z intuicją, ale jest specjalną konsekwencją modelowania tych elementów w ten sposób.

AWP
źródło
Uogólnia to w wyższym wymiarze za pomocą macierzy Fishera. Hesjan logarytmu prawdopodobieństwa rozkładu tylnego w pobliżu jego szczytu jest sumą odwrotnych kowariancji wcześniejszych i prawdopodobieństwa. Odwrotnością tej sumy jest kowariancja a posteriori. Ponieważ dodaje się dwie dodatnie (pół) określone macierze (odwrotne kowariancje), matematycznie jest gwarantowane, że dokładność a posteriori przekroczy dokładność wcześniejszego lub prawdopodobieństwa rozkładu prawdopodobieństwa. Jest to wynik uniwersalny w ramach bayesowskich.
T3am5hark
2

X1X0μN.(1.6,0,42))X1N.(μ,0,42))X 1 X1X1 zostanie zaobserwowany, spadnie w normalnie rozłożonej pozycji z oczekiwaniami równymi twojej poprzedniej średniej 1,6 i standardowym odchyleniem równym . Zatem prawdopodobieństwo, że spadnie do 6,1 (jak w twoim przykładzie) lub nawet dalej od twojej poprzedniej średniej, wynosi . Tak się nie stanie w praktyce, pod warunkiem, że Twój model, w tym wcześniejsze wnioski na temat są poprawne.2ϕ(-(6,1-1,6)/0,56)=9,310-16μ0,42)+0,42)=0,562)ϕ(-(6.1-1.6)/0,56)=9.310-16μ

Dla uproszczenia załóżmy, że „przeszłe dane” były również pojedynczą i że zacząłeś od płaskiego przed obserwowaniem . Innymi , w odniesieniu do i powyższa sytuacja lub coś bardziej ekstremalnego powstaje, jeśli co jest niezwykle mało prawdopodobne, biorąc pod uwagę, że obie zmiany w zależności od modelu powinny pochodzić z tego samego rozkładu normalnego ze standardem odchylenie 0,4.X 0 X 0 X 1 | X 1 - X 0 | > 6,1 - 1,6X0N.(μ,0,42))X0X0X1|X1-X0|>6.1-1.6

Więc jeśli natrafisz na coś takiego w praktyce, zdecydowanie sugerowałoby to, że wnioskowanie dokonane z lub (lub obu) jest błędne i w jakiś sposób zignorowało ważne źródła niepewności. Jeśli uważasz, że tak jest, ale nie udało ci się znaleźć żadnego błędu, powiedziałbym, że najlepszym rozwiązaniem byłoby dostosowanie standardowych odchyleń zarówno prawdopodobieństwa, jak i wcześniejszego post hoc, aby były bardziej kompatybilne. Doprowadziłoby to w rzeczywistości do lepszego, szerszego tylnego, bardziej zgodnego z intuicją.X 1X0X1

Jarle Tufto
źródło
1

Po zastanowieniu się przez chwilę, doszedłem do wniosku, że przy złych założeniach modelowania, późniejszy może być wynikiem, który nie jest zgodny z wcześniejszymi przekonaniami ani prawdopodobieństwem. Z tego naturalnego rezultatu jest to, że tył nie jest na ogół końcem analizy. Jeśli zdarza się, że tylny powinien z grubsza pasować do danych lub że powinien być rozproszony między wcześniejszym a prawdopodobieństwem (w tym przypadku), wówczas należy to sprawdzić po fakcie, prawdopodobnie za pomocą kontroli predykcyjnej tylnej lub czegoś takiego podobny. Włączenie tego do modelu wydawałoby się wymagać umiejętności ustalania prawdopodobieństw na stwierdzeniach probabilistycznych, co nie wydaje mi się możliwe.

Rónán Daly
źródło
tak, zgadzam się, zobacz moją bardziej szczegółową odpowiedź
Florian Hartig,
0

Myślę, że to naprawdę interesujące pytanie. Po spaniu myślę, że mam dźgnięcie w odpowiedź. Kluczowa kwestia jest następująca:

  • Potraktowałeś to prawdopodobieństwo jako gaussowski pdf. Ale to nie rozkład prawdopodobieństwa - to prawdopodobieństwo! Co więcej, nie oznaczyłeś wyraźnie swojej osi. Te wszystkie rzeczy pomieszały wszystko, co następuje.

μσP.(μ|μ,σ)μσP.(X|μ,σ)XP.(μ|X,σ,μ,σ)μ

μP.(X|μ)

P.(μ|μ,σ)=mixp(-(μ-μ)2)2)σ2))12)πσ2)

P.(X|μ,σ)=ja=1N.mixp(-(xja-μ)2)2)σ2))12)πσ2)

σ2)=σ2)/N.σ2)N.X

Tak więc, wcześniejsze i prawdopodobieństwo są równie pouczające. Dlaczego tylny bimodal? Wynika to z twoich założeń modelowania. Domyślnie przyjąłeś rozkład normalny w sposób, w jaki jest to ustawione (normalne wcześniejsze, normalne prawdopodobieństwo), a to ogranicza tylną postawę, aby dać jednoznaczną odpowiedź. To tylko właściwość normalnych dystrybucji, które rozwikłałeś problem, używając ich. Inny model niekoniecznie by to zrobił. Mam wrażenie (choć brakuje obecnie dowodu), że rozkład cauchy może mieć multimodalne prawdopodobieństwo, a zatem i multimodalny tył.

Tak więc musimy być jednomodalni, a przeor jest tak samo pouczający, jak prawdopodobieństwo. Zgodnie z tymi ograniczeniami najbardziej sensowne oszacowanie zaczyna brzmieć jak punkt bezpośrednio pomiędzy prawdopodobieństwem a przejęciem, ponieważ nie mamy rozsądnego sposobu, aby powiedzieć, w co wierzyć. Ale dlaczego tylna staje się ciaśniejsza?

σμσσσμ

(Sposobem na wizualizację może być wyobrażenie sobie oszacowania średniej gaussa o znanej wariancji, przy użyciu tylko dwóch punktów próbki. Jeśli dwa punkty próbki są oddzielone o wiele więcej niż szerokość gaussa (tzn. Są one wyłączone w ogonach), to jest mocny dowód, że średnia faktycznie znajduje się między nimi. Lekkie przesunięcie średniej z tej pozycji spowoduje wykładniczy spadek prawdopodobieństwa jednej lub drugiej próbki.)

Podsumowując, sytuacja, którą opisałeś, jest nieco dziwna, a stosując model, który masz, włączyłeś pewne założenia (np. Niejednoznaczność) do problemu, o którym nie zdawałeś sobie sprawy. Ale poza tym wniosek jest poprawny.

Poklepać
źródło
μσσμ