Jakie jest bayesowskie uzasadnienie wcześniejszych analiz uprzywilejowanych niż innych analiz?

Tło i przykład empiryczny

Mam dwa studia; Przeprowadziłem eksperyment (badanie 1), a następnie powtórzyłem go (badanie 2). W badaniu 1 znalazłem interakcję między dwiema zmiennymi; w badaniu 2 ta interakcja była w tym samym kierunku, ale nie znacząca. Oto podsumowanie modelu badania 1:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 **

I model Study 2:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545

Zamiast powiedzieć: „Wydaje mi się, że nic nie mam, ponieważ„ nie udało mi się powielić ”.„ Połączyłem dwa zestawy danych, utworzyłem zmienną fikcyjną dla tego badania, z którego pochodzą dane, a następnie uruchomiłem interakcję ponownie po kontrolowaniu do badania zmiennej manekina. Ta interakcja była znacząca nawet po jej kontrolowaniu i odkryłem, że ta dwukierunkowa interakcja między warunkiem a niechęcią / prej nie była zakwalifikowana przez trójstronną interakcję z badaną zmienną.

Przedstawiamy analizę bayesowską

Kazałem komuś zasugerować, że jest to świetna okazja do zastosowania analizy bayesowskiej: w badaniu 2 mam informacje z badania 1, które mogę wykorzystać jako informacje wstępne! W ten sposób w badaniu 2 przeprowadzana jest aktualizacja bayesowska z częstych, zwykłych wyników najmniejszych kwadratów w badaniu 1. Więc wracam i ponownie analizuję model badania 2, używając teraz pouczających informacji o współczynnikach: wszystkie współczynniki miały normalne przed, gdzie średnia była oszacowaniem w badaniu 1, a odchylenie standardowe było błędem standardowym w badaniu 1.

To jest podsumowanie wyniku:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

Wygląda na to, że teraz mamy dość solidne dowody na interakcję z analizy badania 2. Jest to zgodne z tym, co zrobiłem, gdy po prostu ułożyłem dane jeden na drugim i uruchomiłem model z numerem badania jako zmienną fikcyjną.

Scenariusz alternatywny: co jeśli pierwszy raz studiowałem 2?

To sprawiło, że pomyślałem: co jeśli najpierw uruchomiłem badanie 2, a następnie wykorzystałem dane z badania 1, aby zaktualizować swoje przekonania dotyczące badania 2? Zrobiłem to samo, co powyżej, ale odwrotnie: ponownie przeanalizowałem dane z badania 1, używając częstych, zwykłych oszacowań współczynnika najmniejszych kwadratów i standardowych odchyleń od badania 2 jako wcześniejszych średnich i odchyleń standardowych dla mojej analizy danych z badania 1. Podsumowanie wyników:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

Ponownie widzimy dowody na interakcję, jednak niekoniecznie tak było. Zauważ, że oszacowanie punktowe dla obu analiz bayesowskich nie występuje nawet w 95% wiarygodnych przedziałach; dwa wiarygodne przedziały z analiz bayesowskich mają więcej nakładania się niż nakładania się.

Jakie jest bayesowskie uzasadnienie pierwszeństwa czasu?

Moje pytanie brzmi zatem: jakie są uzasadnienia Bayesian dla przestrzegania chronologii gromadzenia i analizy danych? Otrzymuję wyniki z Studium 1 i używam ich jako istotnych informacji w Studium 2, dzięki czemu używam Studium 2 do „aktualizacji” moich przekonań. Ale jeśli założymy, że wyniki, które otrzymuję, są losowo brane z rozkładu z prawdziwym efektem populacyjnym ... to dlaczego uprzywilejowuję wyniki z badania 1? Jakie jest uzasadnienie wykorzystania wyników badania 1 jako priorytetów dla badania 2 zamiast przyjmowania wyników badania 2 jako priorytetów dla badania 1? Czy kolejność, w jakiej zbierałem i obliczałem analizy, naprawdę ma znaczenie? Wydaje mi się, że nie powinno tak być - jakie jest uzasadnienie bayesowskie? Dlaczego mam wierzyć, że oszacowanie punktowe jest bliższe 0,34 niż 0,17 tylko dlatego, że najpierw uruchomiłem Badanie 1?

Odpowiadanie na odpowiedź Kodiologa

Kodiolog zauważył:

Drugi z tych punktów wskazuje na ważne odejście od konwencji bayesowskiej. Nie ustawiłeś wcześniej pierwszego, a potem pasowałeś do obu modeli w stylu bayesowskim. Pasujesz jeden model w sposób nienależący do Bayesa, a następnie używasz go do priory dla drugiego modelu. Jeśli zastosujesz konwencjonalne podejście, nie zobaczysz zależności od porządku, którą tu widziałeś.

Aby rozwiązać ten problem, dopasowuję modele do badania 1 i badania 2, w których wszystkie współczynniki regresji miały wcześniejszy . Zmienny obojętne zmienną warunkach doświadczalnych, oznaczonych 0 lub 1; zarówno zmienna, jak i wynik, zostały zmierzone w 7-punktowych skalach od 1 do 7. Dlatego uważam, że jest to dobry wybór wcześniejszy. Po prostu według sposobu skalowania danych byłoby bardzo, bardzo rzadko widzieć współczynniki znacznie większe niż sugeruje to wcześniej. $\text{N}(0, 5)$ condprej

Średnie oszacowania i odchylenie standardowe tych oszacowań są mniej więcej takie same jak w regresji OLS. Studium 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

I badanie 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

Ponieważ te średnie i standardowe odchylenia są mniej więcej takie same jak szacunki OLS, powyższy efekt kolejności nadal występuje. Jeśli podłączę tylne statystyki podsumowujące z badania 1 do priors podczas analizowania badania 2, obserwuję inny końcowy obraz tylny niż podczas analizy badania 2, a następnie wykorzystuję te późniejsze statystyki podsumowujące jako priorytety do analizy badania 1.

Nawet gdy używam średnich bayesowskich i standardowych odchyleń dla współczynników regresji jako priorytetów zamiast częstych szacunków, nadal obserwowałbym ten sam efekt porządkowy. Pozostaje więc pytanie: jakie jest bayesowskie uzasadnienie uprzywilejowania badania, które było pierwsze?

bayesian Mark White
źródło

„Nadal byłbym w tej samej sytuacji. Pozostaje więc pytanie: jakie jest bayesowskie uzasadnienie uprzywilejowania studiów, które były pierwsze?” - co? W jakim sensie nadal uprzywilejowujesz Studium 1? Możesz dopasować dwa modele, jak tu opisano lub w odwrotnej kolejności, a ostateczne oszacowanie np. Prawdziwego współczynnika populacji prejpowinno być takie samo w obu przypadkach, chyba że źle rozumiem twoją procedurę.

Kodiolog

@Kodiologist Zredagowałem dla jasności, w tym więcej na temat procedury.

Mark White

Co z macierzą kowariancji i błędem? Musisz użyć całego stawu tylnego jako nowego przeora.

Scortchi - Przywróć Monikę

@Scortchi bingo - myślę, że to poprawna odpowiedź i właśnie w to odpowiedź unutbu skłoniła mnie do uwierzenia. To, co zrobiłem, było naprawdę prymitywną wersją aktualizacji: wziąłem statystyki podsumowujące, a nie cały staw tylny. To implikuje pytanie: Czy istnieje sposób na włączenie całego stawu tylnego jako wcześniejszego rstanarmlub Stan? Wygląda na to, że pytanie zostało zadane tutaj wcześniej: stats.stackexchange.com/questions/241690/…

Mark White

Jeśli zaczynasz od priorów gaussowskich (i niezależności?) Dla współczynników i odwrotnej gamma dla wariancji, masz normalny odwrotny gamma przed i jest sprzężony. Wyszukaj równania aktualizujące.

Scortchi - Przywróć Monikę

Odpowiedzi:

Twierdzenie Bayesa mówi, że posteriorrówna się prior * likelihoodpo przeskalowaniu (więc prawdopodobieństwo sumuje się do 1). Każda obserwacja ma jedną, likelihoodktórej można użyć do aktualizacji priori utworzenia nowej posterior:

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

Po to aby

posterior_n = prior * likelihood_1 * ... * likelihood_n

Zamienność mnożenia oznacza, że aktualizacje można wykonać w dowolnej kolejności . Jeśli więc zaczniesz od jednego przeora, możesz mieszać obserwacje z badania 1 i badania 2 w dowolnej kolejności, zastosować formułę Bayesa i dojść do tego samego finału posterior.

unutbu
źródło

Ma sens. Wskazuje to zatem na możliwą przyczynę rozbieżności: sposób, w jaki przeprowadziłem swoje analizy (wrzuciłem statystyki podsumowujące później do wcześniejszych argumentów do następnego badania), nie działa jak aktualizacja? To znaczy: muszę wziąć pod uwagę całość a posteriori, a nie tylko umieszczać w niej statystyki podsumowujące w priorytetach późniejszych analiz. Poprawny?

Mark White

@MarkWhite Correct. Rozkłady późniejsze z pierwszej analizy powinny być priorytetem dla drugiej.

Kodiolog

@Kodiolog i statystyki podsumowujące o odcinku tylnym! = Odcinek tylny

Mark White

@MarkWhite Right.

Kodiolog

Najpierw powinienem zauważyć, że:

W swoim podejściu do testowania istotności obserwowałeś wynik ujemny za pomocą innego modelu, który dał ci kolejną szansę na uzyskanie wyniku pozytywnego. Taka strategia zwiększa twój wskaźnik błędów typu I projektu. Testowanie istotności wymaga wcześniejszego wyboru strategii analitycznej, aby wartości były prawidłowe. $p$
Bardzo wierzysz w wyniki badania 1, przekładając swoje ustalenia z tej próbki tak bezpośrednio na priorytety. Pamiętaj, że przeor nie jest tylko odbiciem wcześniejszych ustaleń. Musi zakodować całość twoich wcześniejszych przekonań, w tym twoich przekonań przed wcześniejszymi ustaleniami. Jeśli przyznasz, że Badanie 1 obejmowało błąd próbkowania, a także inne rodzaje mniej możliwej do wytrącenia niepewności, takie jak niepewność modelu, powinieneś użyć bardziej konserwatywnego uprzedniego.

Drugi z tych punktów wskazuje na ważne odejście od konwencji bayesowskiej. Nie ustawiłeś wcześniej pierwszego, a potem pasowałeś do obu modeli w stylu bayesowskim. Pasujesz jeden model w sposób nienależący do Bayesa, a następnie używasz go do priory dla drugiego modelu. Jeśli zastosujesz konwencjonalne podejście, nie zobaczysz zależności od porządku, którą tu widziałeś.

Kodiolog
źródło

1. Jak podążyłem za wynikiem ujemnym za pomocą innego modelu? Co rozumiesz przez „wynik ujemny”? Jeśli chodzi o poziom błędu dla całego badania typu I, są to dwa oddzielne badania prowadzone tygodniowo od siebie. Tak czy inaczej, wierzę w analizę danych eksploracyjnych, więc nigdy nie sądzę, aby wartości p w praktyce były „poprawne” lub że powinniśmy oczekiwać, że będą „całkowicie poprawne”. Gdyby ludzie wykonali tylko te testy, o których wcześniej pomyśleli, stracilibyśmy wiele wspaniałych odkryć, które wydarzyły się przypadkowo - i marnowalibyśmy mnóstwo danych.

Mark White

p

$p$

2. Tak, ale otrzymalibyście różne priorytety dla Studium 2, co nie zakończyło się tak dużym zaufaniem w ideę, że Studium 1 było dokładne.

Kodiolog

1. Problem nie polega na tym, że zebrałeś więcej danych i przeanalizowałeś je, ale że ponownie przeanalizowałeś dane z obu badań (z ujednoliconym modelem z nowym predyktorem), ponieważ otrzymałeś negatywne wyniki przy pierwszej analizie drugiego zestawu danych. Nigdy nie widziałem powodu, by sądzić, że testowanie istotności jest rzeczywiście przydatne, ale większość tych, którzy uważają, że wydaje się sądzić, że wszystkie twierdzenia dotyczące testowania istotności są tym, co potwierdza jego przydatność, i twierdzenia, podobnie jak wszystkie twierdzenia, wymagają pewne przesłanki w celu wyciągnięcia wniosków.

Kodiolog

@Kodiolog - Jeśli nie uważasz, że testowanie istotności jest kiedykolwiek przydatne, na jakiej podstawie jesteś podejrzliwy (na przykład) badacza, który stwierdza, że większość ludzi prawdopodobnie ma niebieskie oczy, ponieważ wszyscy w próbie dwóch?

Obie 2.0

Pomyślałem, że mogę stworzyć serię wykresów z innym, ale stylizowanym problemem, aby pokazać, dlaczego przejście od metod częstych do bayesowskich może być niebezpieczne i dlaczego używanie statystyk podsumowujących może powodować problemy.

Zamiast używać twojego przykładu, który jest wielowymiarowy, zamierzam go ograniczyć do jednego wymiaru za pomocą dwóch badań, których rozmiar to trzy obserwacje i trzy obserwacje.

\frac{1}{π} \frac{1}{1 + (x - θ)^{2)}} .

$\frac{1}{\pi}\frac{1}{1+(x-\theta)^2}.$

Używam go, ponieważ centralne twierdzenie graniczne nie ma zastosowania, brakuje mu wystarczających statystyk, ekstremalne obserwacje są powszechne, nierówności Czebycheva nie utrzymują się, a cała masa normalnie wykonalnych rozwiązań rozpada się. Używam go, ponieważ tworzy świetne przykłady bez konieczności wkładania zbyt wiele pracy w problem.

$\{-5,-1,4\}$ $\{-1.5,-1,-.5\}$ $\pm{669}\sigma$ $\pm{3}\sigma$

Gęstość a posteriori dwóch oddzielnych badań jest

Jak jest to wizualnie oczywiste, pobieranie statystyk podsumowujących z próbki pierwszej może być niezwykle mylące. Jeśli jesteś przyzwyczajony do oglądania ładnych, niemodalnych, dobrze zdefiniowanych i nazwanych gęstości, to może to szybko wyjść za drzwi za pomocą narzędzi bayesowskich. Nie ma podobnego rozkładu nazwanego, ale z pewnością można go opisać za pomocą statystyk podsumowujących, gdybyś na niego nie spojrzał. Korzystanie ze statystyki podsumowującej może być problemem, jeśli zamierzasz użyć jej do zbudowania nowego przeora.

Rozkład pewności dla obu próbek jest taki sam. Ponieważ skala jest znana, jedynym nieznanym parametrem jest mediana. Dla próbki o wielkości trzy medianą jest MVUE. Podczas gdy rozkład Cauchy'ego nie ma żadnej średniej ani wariancji, rozkład próby w medianie ma. Jest mniej wydajny niż estymator maksymalnego prawdopodobieństwa, ale nie wymagam obliczeń. W przypadku próbek o dużych rozmiarach metodą Rothenberga jest MVUE i istnieją również rozwiązania o średniej wielkości próbek.

Dostajesz za dystrybucję Frequentist

$\Pr(x|\theta)$ $\Pr(\theta|x)$

Rozkład Frequentist zakłada nieskończone powtarzanie wielkości próby z trzech losowań i pokazuje rozkład ograniczający dla rozkładu median próbek. Rozkład bayesowski otrzymuje więc zależy tylko od obserwowanej próbki i ignoruje dobre lub złe właściwości, które może mieć ta próbka. Rzeczywiście, próba ta jest niezwykła w przypadku metod bayesowskich i dlatego można dać sobie przerwę, aby uzyskać mocne wnioskowanie na jej temat. Dlatego tylny jest tak szeroki, że próbka jest niezwykła. Metoda Frequentist kontroluje nietypowe próbki, podczas gdy Bayesian nie. Stwarza to perwersyjny przypadek, w którym dodatkowa pewność parametru skali zawęża rozwiązanie Frequentist, ale poszerza Bayesian. $x$

Wspólny tylny jest produktem zarówno tylnych, jak i asocjatywnego mnożenia, nie ma znaczenia, z którego zamówienia korzystasz. Wizualnie staw tylny jest .

Oczywiste jest, że gdybyś nałożył uproszczoną dystrybucję na tylne ściany i używał ich statystyk podsumowujących, prawdopodobnie uzyskałbyś inną odpowiedź. W rzeczywistości mogła to być zupełnie inna odpowiedź. Gdyby do badania wykorzystać 70% wiarygodny region, spowodowałoby to odłączenie wiarygodnego regionu. Istnienie rozłączonych przedziałów zdarza się czasem w metodach bayesowskich. Grafika najwyższego przedziału gęstości i najniższego przedziału gęstości dla badania pierwszego to

Zauważysz, że HDR jest uszkodzony przez fragment regionu, który jest poza wiarygodnym zestawem.

Podczas gdy wiele z tych problemów zwykle zanika w dużych zestawach z regresją, pozwólcie, że podam przykład naturalnej różnicy w tym, jak metody Bayesa i Frequentist będą inaczej traktować brakujące zmienne w regresji.

Rozważ dobrze skonstruowaną regresję z jedną brakującą zmienną, pogodą. Załóżmy, że klienci zachowują się inaczej w deszczowe i słoneczne dni. Jeśli ta różnica jest wystarczająca, z łatwością mogą istnieć dwa tryby bayesowskie. Jeden tryb odzwierciedla zachowanie słoneczne, drugi deszczowy. Nie wiesz, dlaczego masz dwa tryby. Może to być przebieg statystyczny lub brakujący punkt danych, ale albo próbka jest nietypowa, albo model ma zmienną pominiętą.

Rozwiązanie Frequentist uśredniłoby dwa stany i może umieścić linię regresji w regionie, w którym w rzeczywistości nie występuje żadne zachowanie klienta, ale które uśrednia dwa rodzaje zachowań. Będzie również tendencyjne w dół. Problemy mogą zostać uwidocznione w analizie resztek, szczególnie jeśli istnieje duża różnica w prawdziwych wariancjach, ale nie musi. Może to być jeden z tych dziwnych zdjęć pozostałości, które będą pojawiać się w Cross-validated od czasu do czasu.

Fakt, że masz dwóch różnych potomków z tych samych danych, oznacza, że nie pomnożyłeś ich bezpośrednio. Albo stworzyłeś a posterior z rozwiązania Frequentist, który nie mapował jeden do jednego z Bayesian posterior, lub utworzyłeś wcześniej ze statystyk podsumowujących, a funkcja wiarygodności nie była idealnie symetryczna, co jest powszechne.

Dave Harris
źródło