Dlaczego wielokrotne porównanie stanowi problem?

44

Trudno mi zrozumieć, na czym tak naprawdę polega problem z wieloma porównaniami . Z prostą analogią mówi się, że osoba, która podejmie wiele decyzji, popełni wiele błędów. Stosuje się więc bardzo konserwatywne środki ostrożności, takie jak korekcja Bonferroniego, aby prawdopodobieństwo, że osoba ta popełni jakikolwiek błąd, na jak najniższym poziomie.

Ale dlaczego zależy nam na tym, czy dana osoba popełniła jakikolwiek błąd wśród wszystkich swoich decyzji, a nie na odsetku błędnych decyzji?

Pozwól, że wyjaśnię, co myli mnie z inną analogią. Załóżmy, że jest dwóch sędziów, jeden ma 60 lat, a drugi ma 20 lat. Następnie poprawka Bonferroniego mówi temu, który ma 20 lat, że jest tak konserwatywny, jak to możliwe, decydując się na egzekucję, ponieważ będzie pracował jeszcze przez wiele lat jako sędzia, podejmie o wiele więcej decyzji, więc musi być ostrożny. Ale ten w wieku 60 lat prawdopodobnie wkrótce przejdzie na emeryturę, podejmie mniej decyzji, dzięki czemu będzie bardziej nieostrożny w porównaniu do drugiego. Ale w rzeczywistości obaj sędziowie powinni być równie ostrożni lub konserwatywni, niezależnie od całkowitej liczby decyzji, jakie podejmą. Myślę, że ta analogia mniej więcej przekłada się na rzeczywiste problemy związane z zastosowaniem korekcji Bonferroniego, co uważam za sprzeczne z intuicją.

AgCl
źródło
8
nie jest to odpowiedź na twoje pytanie, ale czy napotkałeś Fałszywe wskaźniki wykrywalności (FDR)? „Beyond Bonferroni” Narum: springerlink.com/content/c5047h0084528056
apeescape

Odpowiedzi:

40

Stwierdziłeś coś, co jest klasycznym kontrargumentem dla poprawek Bonferroniego. Czy nie powinienem dostosowywać kryterium alfa na podstawie każdego testu, jaki kiedykolwiek przeprowadzę? Tego rodzaju implikacja ad absurdalna powoduje, że niektórzy ludzie wcale nie wierzą w korekty w stylu Bonferroniego. Czasami dane, z którymi mamy do czynienia w ich karierze, są takie, że nie stanowi to problemu. Dla sędziów, którzy podejmują jedną lub bardzo mało decyzji w sprawie każdego nowego dowodu, jest to bardzo ważny argument. Ale co z sędzią z 20 oskarżonymi i kto opiera swój osąd na jednym dużym zestawie danych (np. Trybunały wojenne)?

Ignorujesz kopnięcia w części puszki argumentu. Ogólnie naukowcy szukają czegoś - wartości p mniejszej niż alfa. Każda próba znalezienia jednego jest kolejnym kopnięciem w puszkę. W końcu można go znaleźć, jeśli zrobi się wystarczająco dużo strzałów. Dlatego należy ich za to ukarać.

Sposób, w jaki harmonizujesz te dwa argumenty, polega na uświadomieniu sobie, że oba są prawdziwe. Najprostszym rozwiązaniem jest rozważenie przetestowania różnic w obrębie jednego zestawu danych jako problemu w rodzaju problemu, który może być problemem, ale rozszerzenie zakresu korekty poza to byłoby śliskie nachylenie.

Jest to naprawdę trudny problem w wielu dziedzinach, w szczególności w FMRI, gdzie porównuje się tysiące punktów danych i na pewno niektóre z nich są tak znaczące przez przypadek. Biorąc pod uwagę, że pole to było historycznie bardzo eksploracyjne, należy coś zrobić, aby skorygować fakt, że setki obszarów mózgu będą wyglądać znacząco przypadkowo. Dlatego w tej dziedzinie opracowano wiele metod dostosowania kryterium.

Z drugiej strony, w niektórych polach można najwyżej spojrzeć na 3 do 5 poziomów zmiennej i zawsze testować każdą kombinację, jeśli wystąpi znacząca ANOVA. Wiadomo, że ma to pewne problemy (błędy typu 1), ale nie jest to szczególnie straszne.

To zależy od twojego punktu widzenia. Badacz FMRI rozpoznaje prawdziwą potrzebę zmiany kryterium. Osoba patrząca na małą ANOVA może czuć, że z testu wynika coś wyraźnie. Właściwy konserwatywny punkt widzenia na wiele porównań polega na tym, aby zawsze coś z tym zrobić, ale tylko w oparciu o pojedynczy zestaw danych. Wszelkie nowe dane resetują kryterium ... chyba że jesteś Bayesianinem ...

Jan
źródło
Dzięki, to było bardzo pomocne. Głosuję, kiedy będę mieć wystarczającą liczbę przedstawicieli.
AgCl,
Badacz FMRI prawdopodobnie zastosowałby również kryterium Fałszywego odkrycia (FDR), ponieważ gwarantuje alfa * 100% fałszywie dodatnich wyników w długim okresie testów.
Brandon Sherman,
@John, czy możesz odpowiedzieć na to pytanie stats.stackexchange.com/questions/431011/ ... Byłbym szczęśliwy, jeśli możesz mi pomóc.
Sabbir Ahmed
26

Szanowani statystycy zajęli wiele różnych pozycji w wielu porównaniach. To subtelny temat. Jeśli ktoś myśli, że to proste, zastanawiałbym się, jak dużo o tym pomyśleli.

Oto ciekawa bayesowska perspektywa wielu testów autorstwa Andrew Gelmana: Dlaczego (zwykle) nie martwimy się o wiele porównań .

John D. Cook
źródło
2
Interesujące w tym artykule jest to, że perspektywa jest bayesowska, ale podejście do modelowania hierarchicznego, zastępujące poprawki do wielu porównań, nie wymaga bycia bayesowskim.
conjugateprior
1
Właśnie patrzyłem na ten artykuł; Myślę, że może trzeba to cytować więcej. Nie znoszę efektów spłukiwania, ponieważ zaawansowane techniki wielokrotnego porównywania nie są dobrze znane ani łatwe do zrobienia. W przeciwieństwie do tego podejście lmer jest proste. Zastanawiam się, czy istnieją poważne problemy, które należy wziąć pod uwagę.
russellpierce
13

W związku z wcześniejszym komentarzem badacz fMRI powinien pamiętać, że ważne są klinicznie ważne wyniki, a nie przesunięcie gęstości pojedynczego piksela na fMRI mózgu. Jeśli nie spowoduje to poprawy klinicznej / szkody, to nie ma znaczenia. Jest to jeden ze sposobów zmniejszenia obaw związanych z wielokrotnymi porównaniami.

Zobacz też:

  1. Bauer, P. (1991). Wielokrotne testy w badaniach klinicznych. Stat Med, 10 (6), 871–89; dyskusja 889-90.
  2. Proschan, MA i Wacławiw, MA (2000). Praktyczne wytyczne dotyczące dostosowywania wielokrotności w badaniach klinicznych. Kontrolne badania kliniczne, 21 (6), 527-39.
  3. Rothman, KJ (1990). W przypadku wielu porównań nie są wymagane żadne korekty. Epidemiology (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, TV (1998). Co jest nie tak z korektami Bonferroniego. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.
pmgjones
źródło
Jest to również z pewnością warte zacytowania: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico
Jestem pewien, że dobrze się bawili, pytając martwego łososia o jego emocje !!!
nico,
Ten post zawiera także przydatne odniesienia związane z RCT: j.mp/bAgr1B .
chl
10

n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0H1i:θi0

niτiH0i|Xi|>τi

τi

  1. wybierz ten sam próg dla wszystkich

  2. aby wybrać inny próg dla wszystkich (najczęściej próg zagrożenia danych, patrz poniżej).

Różne cele: opcje te można realizować dla różnych celów, takich jak

  • H0ii
  • Kontrolowanie oczekiwań współczynnika fałszywych alarmów (lub współczynnika fałszywego wykrywania)

    Niezależnie od tego, jaki jest twój cel, dobrym pomysłem jest użycie progu powodującego awarię danych.

Moja odpowiedź na twoje pytanie: twoja intuicja jest związana z główną heurystyką wyboru progu zagrożenia danych. Oto on (u źródła procedury Holma, która jest silniejsza niż Bonferoni):

p|Xi|H0inpH0i

W przypadku twoich sędziów: Zakładam (i myślę, że powinieneś zrobić to samo), że obaj sędziowie mają takie same budżety fałszywych oskarżeń o swoje życie. 60-letni sędzia może być mniej konserwatywny, jeśli w przeszłości nikogo nie oskarżył! Ale jeśli już wiele oskarżył, będzie bardziej konserwatywny, a może nawet bardziej niż najmłodszy sędzia.

Robin Girard
źródło
Myślę, że masz literówkę w swoich hipotezach - obie wydają się być takie same ...
walkytalky
2

Ilustrujący (i zabawny) artykuł; http://www.jsur.org/ar/jsur_ben102010.pdf ) o potrzebie wielokrotnej korekty testowania w niektórych praktycznych badaniach zmieniających wiele zmiennych, np. fmri. To krótkie cytowanie mówi większość przesłania:

„[...] zakończyliśmy sesję skanowania fMRI z pośmiertnym łososiem atlantyckim jako podmiotem. Łosośowi powierzono to samo zadanie przyjmowania perspektywy społecznej, które zostało później powierzone grupie ludzi”.

to, z mojego doświadczenia, wspaniały argument, aby zachęcić użytkowników do korzystania z wielu poprawek testowych.

peuhp
źródło