Dlaczego metody bayesowskie nie wymagają wielu poprawek testowych?

22

Andrew Gelman napisał obszerny artykuł o tym, dlaczego testowanie Bayesian AB nie wymaga korekty wielu hipotez: Dlaczego (zwykle) nie musimy się martwić o wiele porównań , 2012.

Nie do końca rozumiem: dlaczego metody bayesowskie nie wymagają wielu poprawek testowych?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Rozumiem, że powyższe podejście bayesowskie uwzględnia wspólny rozkład leżący u podstaw wszystkich hipotez (w przeciwieństwie do częstej korekty Bonferroniego). Czy moje rozumowanie jest prawidłowe?

hypothesis-testing bayesian multiple-comparisons ameba mówi Przywróć Monikę
źródło

Podążę za przykładem Andrew Gelmana: Dlaczego (zwykle) nie musimy się martwić o wiele porównań , 2012. Zobacz także na jego blogu .

Patrick McCann

5

Chociaż linki Patricka są bardzo pomocne, dobrze byłoby zobaczyć bardziej samodzielną odpowiedź skierowaną do „umiarkowanie statystycznego recenzenta naukowego”.

przypuszcza

14

Jednym dziwnym sposobem odpowiedzi na pytanie jest zwrócenie uwagi na to, że metoda bayesowska nie pozwala na to, ponieważ metody bayesowskie są zgodne z przyjętymi regułami dowodowymi, a metody częste są często z nimi sprzeczne. Przykłady:

Przy statystykach częstych, porównywanie leczenia A do B musi karać za porównywanie leczenia C i D z powodu rodzinnych rozważań o błędzie typu I; w przypadku Bayesian porównanie AB jest samo w sobie.
W przypadku sekwencyjnych testów częstych zwykle wymagane są kary za wielokrotne przeglądanie danych. W grupowym ustawieniu sekwencyjnym wcześniejsze porównanie dla A vs B musi zostać ukarane za późniejsze porównanie, które nie zostało jeszcze wykonane, a późniejsze porównanie musi zostać ukarane za wcześniejsze porównanie, nawet jeśli wcześniejsze porównanie nie zmieniło przebiegu nauka.

Problem wynika z odwrócenia przepływu czasu i informacji przez częstego użytkownika, co powoduje, że częstokroć musi zastanowić się, co mogło się stać, a nie co się wydarzyło . Natomiast oceny bayesowskie zakotwiczają wszystkie oceny do wcześniejszego rozkładu, który kalibruje dowody. Na przykład wcześniejszy rozkład różnicy AB kalibruje wszystkie przyszłe oceny AB i nie musi uwzględniać CD.

W przypadku testów sekwencyjnych istnieje duże zamieszanie dotyczące sposobu korygowania oszacowań punktowych, gdy eksperyment kończy się wcześnie przy użyciu wnioskowania częstych. W świecie bayesowskim wcześniejsze „cofanie się” do jakichkolwiek szacunków punktowych, a zaktualizowany rozkład boczny stosuje się do wnioskowania w dowolnym momencie i nie wymaga żadnych złożonych rozważań dotyczących przestrzeni próbki.

Frank Harrell
źródło

4

Naprawdę nie rozumiem tego argumentu. Jeśli przeprowadzimy 1000 różnych porównań z typowym podejściem częstym, to oczywiście powinniśmy oczekiwać około 50 znaczących z efektami p <0,05 nawet poniżej wartości zerowej. Stąd poprawki. Jeśli zamiast tego użyjemy szacowania / testowania Bayesa, mając trochę wcześniejszych (około 0?) Dla wszystkich porównań, to tak, wcześniejszy zmniejszy tylne do zera, ale nadal mielibyśmy losowo zmieniające się tylne i / lub czynniki Bayesa i prawdopodobnie będziemy mieli pewne przypadki na 1000, które będą wyglądały jak „znaczące” efekty, nawet jeśli prawdziwe efekty są zerowe.

ameba mówi Przywróć Monikę

1

2^{1000}

$2^{1000}$

2^{1000} - 1

$2^{1000}-1$

1

Niestety, @probabilityislogic, nie jestem pewien, czy zrozumiałem twój punkt widzenia. Wystarczająco uczciwe w kwestii „wszystkich alternatyw”, ale co dzieje się w praktyce? Jak powiedziałem, szacujemy 1000 różnic grupowych (na przykład); mamy różnicę między grupami; otrzymujemy 1000 posteriorów, 95% wiarygodnych interwałów lub cokolwiek innego. Następnie przyjrzymy się każdemu wiarygodnemu przedziałowi, aby sprawdzić, czy jest wystarczająco daleko od zera, aby uzyskać efekt „znaczący / znaczący”. Jeśli zrobimy to 1000 razy, prawdopodobnie będziemy mieli „fałszywie pozytywne” w tym sensie, że niektóre efekty będą wyglądać na duże, nawet jeśli wszystkie 1000 efektów będzie w rzeczywistości równych zero. Nie?

ameba mówi Przywróć Monikę

1

1000

$1000$

1

@probabilityislogic: Cóż, jestem absolutnie na korzyść modeli wielopoziomowych, chociaż nie widzę je koniecznie jako narzędzie Bayesa - mieszanych modeli i ANOVA z efektami losowymi są powszechnie stosowane wraz z t-testów i takie ...

ameba mówi Przywróć Monikę

6

Ten typ modelu hierarchicznego zmniejsza szacunki i redukuje liczbę fałszywych twierdzeń w rozsądnym zakresie w przypadku małej lub umiarkowanej liczby hipotez. Czy gwarantuje to określony poziom błędu typu I? Nie.

Ta szczególna sugestia Gelmana (który uznaje problem polegający na spojrzeniu na zbyt wiele różnych rzeczy, a następnie zbyt łatwo mylnie stwierdzając, że widzisz coś dla niektórych z nich - w rzeczywistości jeden z jego domowych tematów na swoim blogu) różni się od skrajnej alternatywy punkt widzenia, który utrzymuje, że metody bayesowskie nie muszą uwzględniać mnogości, ponieważ liczy się tylko twoje prawdopodobieństwo (i wcześniejsze).

Björn
źródło

1

(+1) Według mojej wiedzy spodziewam się w kilku przypadkach (np. Niewymiarowe z wcześniejszym dopasowaniem) wnioskowanie Bayesa nie daje żadnej kontroli nad poziomem błędu typu 1. Tak więc wielokrotnej korekcji testowej w ustawieniu bayesowskim nie można traktować IHMO jako korekty błędu typu 1.

peuhp

3

+1. W jednej z okropnych ironii życia napisałem artykuł „Dlaczego (zwykle) nie musimy się martwić o wiele porównań”, ale teraz spędzam dużo czasu martwiąc się o wiele porównań (Gelman)

amoeba mówi Przywróć Monikę

6

Bardzo interesujące pytanie, oto moje zdanie na ten temat.

Chodzi o kodowanie informacji, a następnie obrócenie korby bayesowskiej. Wydaje się to zbyt piękne, aby mogło być prawdziwe - ale oba są trudniejsze niż się wydaje.

Zaczynam od zadania pytania

Jakie informacje są wykorzystywane, gdy martwimy się o wiele porównań?

Mogę coś wymyślić - pierwszy to „pogłębianie danych” - testuj „wszystko”, aż dostaniesz wystarczającą liczbę pozytywnych / negatywnych wyników (sądzę, że prawie każda osoba przeszkolona w statystykach byłaby narażona na ten problem). Masz również mniej złowrogi, ale w zasadzie ten sam „Mam tyle testów do uruchomienia - na pewno nie wszystko może być poprawne”.

Po zastanowieniu się nad tym zauważam, że nie słyszy się zbyt wiele o konkretnych hipotezach lub konkretnych porównaniach. Chodzi o „kolekcję” - to powoduje, że myślę o wymienności - porównywana hipoteza jest w pewnym sensie „podobna” do siebie. A jak zakodujesz wymienność w analizie bayesowskiej? - hiper-priory, modele mieszane, efekty losowe itp. !!!

Ale wymienność pozwala tylko na części. Czy wszystko jest wymienne? A może masz „rzadkość” - na przykład tylko kilka niezerowych współczynników regresji z dużą pulą kandydatów. Modele mieszane i normalnie rozmieszczone efekty losowe nie działają tutaj. Utkną one pomiędzy szumem zgniatania a pozostawieniem nietkniętych sygnałów (np. W twoim przykładzie utrzymaj parametry „prawda” locationB i locationC równe, i ustaw „parametr true” dowolnie duży lub mały i obserwuj, jak zawodzi standardowy mieszany model liniowy.) . Ale można to naprawić - np. Przy pomocy priorów z „kolcami i płytami” lub priorów z „podkowy”.

Tak naprawdę chodzi bardziej o to, aby opisać, o jakiej hipotezie mówisz, i uzyskać jak najwięcej znanych cech odzwierciedlonych w przeszłości i prawdopodobieństwie. Podejście Andrew Gelmana jest po prostu sposobem na niejawną obsługę szerokiej klasy wielu porównań. Podobnie jak najmniejsze kwadraty i normalne rozkłady zwykle działają dobrze w większości przypadków (ale nie wszystkie).

Jeśli chodzi o to, jak to robi, możesz pomyśleć o rozumowaniu osoby w następujący sposób - grupa A i grupa B mogą mieć ten sam środek - spojrzałem na dane, a środki są „bliskie” - stąd, aby uzyskać lepsze oszacowanie w obu przypadkach powinienem zebrać dane, ponieważ początkowo sądziłem, że mają one ten sam środek. - Jeśli nie są takie same, dane dostarczają dowodów, że są „bliskie”, więc łączenie „trochę” nie zaszkodzi mi tak bardzo, jeśli moja hipoteza była błędna (a la wszystkie modele są błędne, niektóre są przydatne)

Zauważ, że wszystkie powyższe zawiasy w początkowej przesłance „mogą być takie same”. Zabierz to i nie ma uzasadnienia dla łączenia. Prawdopodobnie można również zobaczyć sposób myślenia o testach w „rozkładzie normalnym”. „Najprawdopodobniej zero”, „jeśli nie zero, najprawdopodobniej blisko zera”, „ekstremalne wartości są mało prawdopodobne”. Rozważ tę alternatywę:

średnie grupy A i grupy B mogą być równe, ale mogą być również drastycznie różne

W takim razie argument o „odrobinie puli” jest bardzo złym pomysłem. Lepiej jest wybrać sumowanie całkowite lub zerowanie. Znacznie bardziej jak Cauchy, kolec i płyta, rodzaj sytuacji (dużo masy wokół zera i dużo masy dla ekstremalnych wartości)

Całe wielokrotne porównania nie muszą być rozpatrywane, ponieważ podejście bayesowskie obejmuje informacje, które prowadzą nas do zmartwień o wcześniejsze i / lub prawdopodobieństwo . W pewnym sensie jest to przypomnienie, aby właściwie przemyśleć, jakie informacje są dla Ciebie dostępne i upewnić się, że uwzględniłeś je w swojej analizie.

prawdopodobieństwo prawdopodobieństwa
źródło

2

l_{1}

$l_1$

\exp (- | x |)

$\exp(-|x|)$

@StasK - l1 działałby lepiej, ale ponieważ jest wklęsły, walczyłby z rzadkimi zerami. Te, o których wspomniałem, są wypukłe. Zbliżonym wariantem do l1 jest uogólnione podwójne pareto - uzyskaj, biorąc mieszaninę parametru skali laplace'a (podobnego do adaptacyjnego lasso w ML speak)

prawdopodobieństwo prawdopodobieństwa

5

Po pierwsze, ponieważ rozumiem prezentowany model, myślę, że różni się on nieco od propozycji Gelmana, a bardziej przypomina:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

W praktyce po dodaniu tego commonLocationparametru wnioskowania dotyczące parametrów 3 rozkładów (tutaj lokalizacje 1, 2 i 3) nie są już od siebie niezależne. Ponadto commonLocationma tendencję do zmniejszania wartości oczekiwanych parametrów w kierunku wartości centralnej (ogólnie oszacowanej). W pewnym sensie działa on jako regularyzacja wszystkich wniosków, co sprawia, że potrzeba korekty wielokrotnej korekty nie jest potrzebna (ponieważ w praktyce wykonujemy jedno oszacowanie wielowymiarowe z uwzględnieniem interakcji między każdą z nich za pomocą modelu).

Jak wskazano w drugiej odpowiedzi, ta korekta nie daje żadnej kontroli nad błędem typu I, ale w większości przypadków metoda bayesowska nie oferuje żadnej takiej kontroli nawet w pojedynczej skali wnioskowania, a korektę wielokrotnego porównania należy traktować inaczej w bayesowskiej oprawa.

peuhp
źródło

Dlaczego metody bayesowskie nie wymagają wielu poprawek testowych?

Odpowiedzi: