Trudno mi zrozumieć, na czym tak naprawdę polega problem z wieloma porównaniami . Z prostą analogią mówi się, że osoba, która podejmie wiele decyzji, popełni wiele błędów. Stosuje się więc bardzo konserwatywne środki ostrożności, takie jak korekcja Bonferroniego, aby prawdopodobieństwo, że osoba ta popełni jakikolwiek błąd, na jak najniższym poziomie.
Ale dlaczego zależy nam na tym, czy dana osoba popełniła jakikolwiek błąd wśród wszystkich swoich decyzji, a nie na odsetku błędnych decyzji?
Pozwól, że wyjaśnię, co myli mnie z inną analogią. Załóżmy, że jest dwóch sędziów, jeden ma 60 lat, a drugi ma 20 lat. Następnie poprawka Bonferroniego mówi temu, który ma 20 lat, że jest tak konserwatywny, jak to możliwe, decydując się na egzekucję, ponieważ będzie pracował jeszcze przez wiele lat jako sędzia, podejmie o wiele więcej decyzji, więc musi być ostrożny. Ale ten w wieku 60 lat prawdopodobnie wkrótce przejdzie na emeryturę, podejmie mniej decyzji, dzięki czemu będzie bardziej nieostrożny w porównaniu do drugiego. Ale w rzeczywistości obaj sędziowie powinni być równie ostrożni lub konserwatywni, niezależnie od całkowitej liczby decyzji, jakie podejmą. Myślę, że ta analogia mniej więcej przekłada się na rzeczywiste problemy związane z zastosowaniem korekcji Bonferroniego, co uważam za sprzeczne z intuicją.
Odpowiedzi:
Stwierdziłeś coś, co jest klasycznym kontrargumentem dla poprawek Bonferroniego. Czy nie powinienem dostosowywać kryterium alfa na podstawie każdego testu, jaki kiedykolwiek przeprowadzę? Tego rodzaju implikacja ad absurdalna powoduje, że niektórzy ludzie wcale nie wierzą w korekty w stylu Bonferroniego. Czasami dane, z którymi mamy do czynienia w ich karierze, są takie, że nie stanowi to problemu. Dla sędziów, którzy podejmują jedną lub bardzo mało decyzji w sprawie każdego nowego dowodu, jest to bardzo ważny argument. Ale co z sędzią z 20 oskarżonymi i kto opiera swój osąd na jednym dużym zestawie danych (np. Trybunały wojenne)?
Ignorujesz kopnięcia w części puszki argumentu. Ogólnie naukowcy szukają czegoś - wartości p mniejszej niż alfa. Każda próba znalezienia jednego jest kolejnym kopnięciem w puszkę. W końcu można go znaleźć, jeśli zrobi się wystarczająco dużo strzałów. Dlatego należy ich za to ukarać.
Sposób, w jaki harmonizujesz te dwa argumenty, polega na uświadomieniu sobie, że oba są prawdziwe. Najprostszym rozwiązaniem jest rozważenie przetestowania różnic w obrębie jednego zestawu danych jako problemu w rodzaju problemu, który może być problemem, ale rozszerzenie zakresu korekty poza to byłoby śliskie nachylenie.
Jest to naprawdę trudny problem w wielu dziedzinach, w szczególności w FMRI, gdzie porównuje się tysiące punktów danych i na pewno niektóre z nich są tak znaczące przez przypadek. Biorąc pod uwagę, że pole to było historycznie bardzo eksploracyjne, należy coś zrobić, aby skorygować fakt, że setki obszarów mózgu będą wyglądać znacząco przypadkowo. Dlatego w tej dziedzinie opracowano wiele metod dostosowania kryterium.
Z drugiej strony, w niektórych polach można najwyżej spojrzeć na 3 do 5 poziomów zmiennej i zawsze testować każdą kombinację, jeśli wystąpi znacząca ANOVA. Wiadomo, że ma to pewne problemy (błędy typu 1), ale nie jest to szczególnie straszne.
To zależy od twojego punktu widzenia. Badacz FMRI rozpoznaje prawdziwą potrzebę zmiany kryterium. Osoba patrząca na małą ANOVA może czuć, że z testu wynika coś wyraźnie. Właściwy konserwatywny punkt widzenia na wiele porównań polega na tym, aby zawsze coś z tym zrobić, ale tylko w oparciu o pojedynczy zestaw danych. Wszelkie nowe dane resetują kryterium ... chyba że jesteś Bayesianinem ...
źródło
Szanowani statystycy zajęli wiele różnych pozycji w wielu porównaniach. To subtelny temat. Jeśli ktoś myśli, że to proste, zastanawiałbym się, jak dużo o tym pomyśleli.
Oto ciekawa bayesowska perspektywa wielu testów autorstwa Andrew Gelmana: Dlaczego (zwykle) nie martwimy się o wiele porównań .
źródło
W związku z wcześniejszym komentarzem badacz fMRI powinien pamiętać, że ważne są klinicznie ważne wyniki, a nie przesunięcie gęstości pojedynczego piksela na fMRI mózgu. Jeśli nie spowoduje to poprawy klinicznej / szkody, to nie ma znaczenia. Jest to jeden ze sposobów zmniejszenia obaw związanych z wielokrotnymi porównaniami.
Zobacz też:
źródło
wybierz ten sam próg dla wszystkich
aby wybrać inny próg dla wszystkich (najczęściej próg zagrożenia danych, patrz poniżej).
Różne cele: opcje te można realizować dla różnych celów, takich jak
Kontrolowanie oczekiwań współczynnika fałszywych alarmów (lub współczynnika fałszywego wykrywania)
Niezależnie od tego, jaki jest twój cel, dobrym pomysłem jest użycie progu powodującego awarię danych.
Moja odpowiedź na twoje pytanie: twoja intuicja jest związana z główną heurystyką wyboru progu zagrożenia danych. Oto on (u źródła procedury Holma, która jest silniejsza niż Bonferoni):
W przypadku twoich sędziów: Zakładam (i myślę, że powinieneś zrobić to samo), że obaj sędziowie mają takie same budżety fałszywych oskarżeń o swoje życie. 60-letni sędzia może być mniej konserwatywny, jeśli w przeszłości nikogo nie oskarżył! Ale jeśli już wiele oskarżył, będzie bardziej konserwatywny, a może nawet bardziej niż najmłodszy sędzia.
źródło
Ilustrujący (i zabawny) artykuł; http://www.jsur.org/ar/jsur_ben102010.pdf ) o potrzebie wielokrotnej korekty testowania w niektórych praktycznych badaniach zmieniających wiele zmiennych, np. fmri. To krótkie cytowanie mówi większość przesłania:
to, z mojego doświadczenia, wspaniały argument, aby zachęcić użytkowników do korzystania z wielu poprawek testowych.
źródło