Co jest złego w dostosowaniach Bonferroni?

23

Czytam następujący artykuł: Perneger (1998) Co jest nie tak z korektami Bonferroniego .

Autor podsumował stwierdzeniem, że dostosowanie Bonferroniego ma w najlepszym wypadku ograniczone zastosowania w badaniach biomedycznych i nie powinno się go stosować przy ocenie dowodów dotyczących konkretnej hipotezy:

Punkty podsumowujące:

  • Dostosowanie istotności statystycznej do liczby testów wykonanych na danych z badań - metoda Bonferroniego - stwarza więcej problemów niż rozwiązuje
  • Metoda Bonferroniego dotyczy ogólnej hipotezy zerowej (że wszystkie hipotezy zerowe są prawdziwe jednocześnie), co rzadko jest interesujące lub przydatne dla badaczy
  • Główną słabością jest to, że interpretacja wyników zależy od liczby innych przeprowadzonych testów
  • Zwiększone jest również prawdopodobieństwo błędów typu II, dlatego naprawdę ważne różnice uznaje się za nieistotne
  • Samo opisanie, jakie testy istotności zostały wykonane i dlaczego, jest ogólnie najlepszym sposobem radzenia sobie z wieloma porównaniami

Mam następujący zestaw danych i chcę wykonać wielokrotną korektę testu, ALE nie jestem w stanie zdecydować się na najlepszą metodę w tym przypadku.

wprowadź opis zdjęcia tutaj

Chcę wiedzieć, czy konieczne jest wykonanie tego rodzaju korekty dla wszystkich zestawów danych zawierających listy środków i jaka jest najlepsza metoda korekty w tym przypadku?

goro
źródło
czym dokładnie jest „średnia A”, „średnia B” ...?
3
Przez nie sprostowanie dla wielokrotnych porównań uruchomieniu ryzyko niepowtarzalnych rezultatów. Wiele dziedzin, w tym medycyna i psychologia, niedawno odkryło, że dokładnie tak się stało: wiele z tego, co „wiedzą” w oparciu o nieskorygowane wartości p, okazuje się po prostu inaczej. Bez znaczenia, by wydawać się cynicznym, wygląda na to, że wybór jest jasny: badacz, który musi spełnić kryterium wartości p, aby publikować, nie skoryguje; sceptycy, którzy chcą wiedzy, zrobią to.
whuber
@ Whuber, ale czy można to nadal uznać za powtarzalne, gdy dostępnych jest tak wiele różnych metod korygowania wartości p? W swojej odpowiedzi martino podaje nawet wytyczne do wyboru między metodami mniej konserwatywnymi a bardziej zaawansowanymi.
Nakx
@Nakx Powtarzalność jest jedynie luźno związana z procedurą statystyczną: odnosi się do tego, czy porównywalne wyniki zostaną uzyskane, gdy badania zostaną przeprowadzone samodzielnie przez innych (i prawdopodobnie w takich próbach powtórzenia, z góry sformułowana zostanie jedna wyraźna hipoteza i zastosowana zostanie procedura statystyczna odpowiednia do tej hipotezy). Jeśli pierwotna procedura nie daje prawidłowej wartości p, to przy wielokrotnym stosowaniu w wielu niezależnych badaniach będzie ona średnio dokonywać bardziej powtarzalnych oznaczeń, niż zamierzają lub oczekują jej użytkownicy.
whuber

Odpowiedzi:

23

Co jest złego w korekcie Bonferroniego oprócz konserwatyzmu wspomnianego przez innych, to co jest nie tak z wszystkimi poprawkami wielokrotności. Nie wynikają one z podstawowych zasad statystycznych i są arbitralne; w świecie częstych nie ma unikalnego rozwiązania problemu wielości. Po drugie, korekty mnogości oparte są na podstawowej filozofii, zgodnie z którą prawdziwość jednego stwierdzenia zależy od tego, jakie inne hipotezy są rozpatrywane. Jest to równoważne z konfiguracją Bayesian, w której poprzednia dystrybucja parametru będącego przedmiotem zainteresowania staje się coraz bardziej konserwatywna, gdy rozważane są inne parametry. Nie wydaje się to spójne. Można powiedzieć, że takie podejście pochodzi od naukowców, którzy zostali „spaleni” przez historię fałszywie pozytywnych eksperymentów, a teraz chcą nadrobić swoje błędy.

Aby nieco rozwinąć, rozważ następującą sytuację. Badacz onkologii zrobił karierę badając skuteczność chemoterapii pewnej klasy. Wszystkie poprzednie 20 jej randomizowanych badań wykazały statystycznie nieistotną skuteczność. Teraz testuje nową chemioterapię w tej samej klasie. Korzyści z przeżycia są znaczące przyP=0,04. Kolega wskazuje, że zbadano drugi punkt końcowy (kurczenie się guza) i że do wyniku przeżycia należy zastosować korektę wielokrotności, co zapewni nieznaczną korzyść przeżycia. W jaki sposób kolega podkreślił drugi punkt końcowy, ale nie przejmował się dostosowaniem do 20 poprzednich nieudanych prób znalezienia skutecznego leku? Jak uwzględniłbyś wcześniejszą wiedzę na temat 20 poprzednich badań, gdybyś nie był Bayesianem? Co jeśli nie byłoby drugiego punktu końcowego. Czy kolega uwierzyłby, że wykazano korzyść z przeżycia, ignorując całą wcześniejszą wiedzę?

Frank Harrell
źródło
2
Nie jest jasne odniesienie do „powtarzalnego”. W przypadku pojedynczego testu, bez wymaganej korekty krotności, szansa na powtórzenie wyniku z nie jest wysoka. P.=0,04
Frank Harrell
2
Aby odpowiedzieć na @MJA, myślę, że istnieją dwa preferowane podejścia: (1) być Bayesowskim lub (2) ustalać priorytety hipotez i podawać wyniki w kontekście, w kolejności priorytetów.
Frank Harrell
3
Nie ma w tym nic zasadnego, ani nie jest ono w żaden sposób dokładne. Nierówność Bonferroniego stanowi górną granicę wyłącznie dla prawdopodobieństwa błędu. Po co wydawać jednakowo na 5 parametrów? Dlaczego nie stworzyć regionu elipsoidalnego zamiast prostokątnego dla regionu akceptacji? Dlaczego nie zastosować metody Scheffe lub Tukeya? Dlaczego nie skorzystać z prostego testu typu ANOVA? Państwo nie osiągnąć pożądany przez stosując w równości. ααα
Frank Harrell,
2
Wyrównujesz dwa poziomy błędu. Pod wartością zerową Bonferroni DOKŁADNIE utrzymuje oczekiwaną liczbę błędów na rodzinę. Daje GÓRNY OGRANICZENIE na temat prawdopodobieństwa „co najmniej jednego” błędu na rodzinę (który zależy od korelacji). Wydatkowanie alfa w równym stopniu na 5 testów jest całkowicie logiczne, biorąc pod uwagę brak szczególnego powodu, aby priorytetyzować testy w inny sposób. Biorąc pod uwagę inny kontekst, istnieją zasadnicze powody, aby zrobić inaczej. Wydaje się, że sugerujesz, że „bezproblemowe” jest używanie matematycznie poprawnej metody tylko dlatego, że istnieją metody alternatywne przy innych kontekstach, celach i założeniach.
Bonferroni
2
@FrankHarrell Twoje pozostałe pytania służą jedynie zilustrowaniu mojej tezy. Często istnieje wiele możliwości wyboru statystyki testu, procedury testowej itp., Nawet przy braku wielokrotności. To nie czyni metodologii „arbitralną” w tym sensie, jak się wydaje. Jeśli ktoś jest zainteresowany testem zbiorczym, wówczas należy go przeprowadzić. Jeśli ktoś interesuje się tylko testami jednowymiarowymi, wówczas należy przeprowadzić testy jednowymiarowe. Czy poważnie sugerujesz, że „arbitralne” jest wybranie testu, który dotyczy pytania, które Cię interesuje, a nie jakiegoś innego pytania?
Bonferroni
12

Podsumował, mówiąc, że dostosowanie Bonferroniego ma w najlepszym wypadku ograniczone zastosowania w badaniach biomedycznych i nie powinno się go stosować przy ocenie dowodów na konkretną hipotezę.

Korekta Bonferroniego jest jedną z najprostszych i najbardziej konserwatywnych technik wielokrotnych porównań. Jest również jednym z najstarszych i z czasem został znacznie ulepszony. Można śmiało powiedzieć, że korekty Bonferroniego mają ograniczone zastosowanie w prawie wszystkich sytuacjach. Istnieje prawie na pewno lepsze podejście. Oznacza to, że będziesz musiał poprawić wiele porównań, ale możesz wybrać metodę mniej konserwatywną i bardziej wydajną.

Mniej konserwatywny

Wiele metod porównań chroni przed uzyskaniem co najmniej jednego fałszywie dodatniego wyniku w rodzinie testów. Jeśli wykonasz jeden test na poziomie , dajesz 5% szansy na uzyskanie fałszywie dodatniego wyniku. Innymi słowy, błędnie odrzucasz swoją hipotezę zerową. Jeśli wykonasz 10 testów na poziomie , wówczas wzrośnie to do = ~ 40% szansy na uzyskanie fałszywie dodatniego wynikuα = 0,05 1 - ( 1 - 0,05 ) 10αα=0,051-(1-0,05)10

Metodą Bonferroniego używasz na najniższym końcu skali (tj. ), aby chronić swoją rodzinę testów na poziomie . Innymi słowy, jest najbardziej konserwatywny. Teraz możesz zwiększyć powyżej dolnego limitu określonego przez Bonferroni (tj. test mniej konserwatywnym) i nadal chronić rodzinę testów na poziomie . Można to zrobić na wiele sposobów, na przykład metodą Holma-Bonferroniego lub jeszcze lepiej False Discovery Rateα b = α / n n α α b ααbαb=α/nnααbα

Mocniejszy

Dobrym punktem przywołanym w cytowanym dokumencie jest to, że prawdopodobieństwo błędów typu II jest również zwiększone, tak że naprawdę ważne różnice są uważane za nieistotne.

To jest bardzo ważne. Potężny test to taki, który znajduje znaczące wyniki, jeśli takie istnieją. Korzystając z korekcji Bonferroniego, otrzymujesz mniej wydajny test. Ponieważ Bonferroni jest konserwatywny, moc prawdopodobnie zostanie znacznie zmniejszona. Ponownie, jedna z alternatywnych metod, np. Współczynnik fałszywych odkryć, zwiększy moc testu. Innymi słowy, nie tylko chronisz przed fałszywymi pozytywami, ale także poprawiasz swoją zdolność do znalezienia naprawdę znaczących wyników.

Tak, powinieneś zastosować technikę korekcji, gdy masz wiele porównań. I tak, należy prawdopodobnie unikać Bonferroni na rzecz mniej konserwatywnej i skuteczniejszej metody

martino
źródło
Istnieje kilka alternatyw - na przykład Holm Bonferroni jest prosty i łatwy do zrozumienia. Dlaczego nie spróbować? Załóżmy, że twoja aplikacja jest w ekspresji genów lub białek, gdzie testujesz prawdopodobnie tysiące zmiennych w eksperymencie, wtedy zwykle używasz FDR.
martino
Twoja metoda obliczania 40% prawdopodobieństwa fałszywie dodatniego wyniku w dziesięciu testach opiera się na twoich testach jako niezależnych zdarzeniach, ale przy rzeczywistych danych jest to raczej mało prawdopodobne. Myślę, że jest to co najmniej warte komentarza.
Silverfish,
Obawiam się również, że ta odpowiedź zdaje się łączyć metody zachowania rodzinnego wskaźnika błędów z metodami fałszywego wykrywania. Omawianie obu tych kwestii nie jest złym pomysłem, ale ponieważ wykonują różne prace, nie sądzę, że powinny być przedstawiane jako równoważne
Silverfish
Ale jeśli dobrze rozumiem, FDR (wskaźniki fałszywych odkryć) nie gwarantują kontroli błędów typu I na ustalonym poziomie? (patrz również moja odpowiedź na to pytanie)
Ale czy nie jest bardziej przejrzyste i użyteczne zgłaszanie wszystkich nieprzetworzonych wartości p w artykule, aby czytelnicy mogli sami ocenić ich ważność lub wybrać spośród niezliczonych metod dostosowywania, których chcą użyć?
Nakx
5

Thomas Perneger nie jest statystykiem, a jego praca jest pełna błędów. Więc nie potraktowałbym tego zbyt poważnie. W rzeczywistości został ostro skrytykowany przez innych. Na przykład Aickin powiedział, że artykuł Pernegera „składa się prawie całkowicie z błędów”: Aickin, „Istnieje inna metoda dostosowania wielu testów”, BMJ. 9 stycznia 1999; 318 (7176): 127.

Ponadto żadna z wartości p w pierwotnym pytaniu i tak nie jest <0,05, nawet bez korekty wielokrotności. Prawdopodobnie więc nie ma znaczenia, jaką regulację (jeśli w ogóle) zastosowano.

Bonferroni
źródło
4
Dzięki za link! Dodałem pełniejsze odniesienie. To wciąż bardziej komentarz niż odpowiedź. Jestem pewien, że możesz coś dodać lub przynajmniej krótkie streszczenie tego, co mówi Aicken. Nie ma to związku z tym: stwierdzenie, że Perneger nie ma specjalistycznej wiedzy statystycznej, wydaje się nieprawdziwe (według jakiegokolwiek rozsądnego standardu), sympatyczne lub przydatne - czy rozważyć usunięcie tego oświadczenia?
Scortchi - Przywróć Monikę
@Scortchi Zmieniłem „nie ma doświadczenia w statystyce” na „nie jest statystykiem”. Nawiasem mówiąc, nie zgadzam się, że nie jest przydatne odróżnianie opinii ekspertów od opinii innych niż eksperci.
Bonferroni,
2
O ile wiem, Perneger nie ma dyplomu ze statystyki i nigdy nie opublikował artykułu w czasopiśmie statystycznym. Artykuł cytowany w pytaniu jest artykułem opiniotwórczym w BMJ, który został wezwany za to, że całkowicie się mylił. Więc jaka jest wiedza ekspercka Pernegera, która jest niepodważalna „poza jakimkolwiek rozsądnym standardem?” Bycie „przyjaznym” nie powinno przeszkadzać prawdzie.
Bonferroni,
3
O ile ja mogę powiedzieć, że jest profesorem w szpitalu uniwersyteckim z Masters w Biostatystyki i doktorat z epidemiologii, który wykłada w statystyki medycznej i publikuje analizy badań klinicznych i badań obserwacyjnych w czasopismach medycznych. Jeśli wywnioskujesz z tego „braku specjalistycznej wiedzy statystycznej”, myślę, że twój standard jest raczej wyższy niż można się spodziewać po założeniu czytelników. (Co powinienem raczej powiedzieć, niż że standard był nieracjonalny.) W każdym razie, dziękuję za jego edycję!
Scortchi - Przywróć Monikę
5

Może dobrze jest wyjaśnić „uzasadnienie” wielu poprawek testowych, takich jak Bonferroni. Jeśli jest to jasne, będziesz mógł sam ocenić, czy powinieneś je zastosować, czy nie.

μH.0:μ=0

H.1:μ0H.0:μ=0α

H.0H.0

H.0H.0H.1

Fałszywy dowód jest złą rzeczą w nauce, ponieważ uważamy, że zdobyliśmy prawdziwą wiedzę o świecie, ale w rzeczywistości mogliśmy mieć pecha z próbką. Tego rodzaju błędy należy w związku z tym kontrolować. Dlatego należy ustalić górną granicę prawdopodobieństwa tego rodzaju dowodów lub kontrolować błąd typu I. Odbywa się to poprzez wcześniejsze ustalenie akceptowalnego poziomu istotności.

5%H.05%H.0H.1H.1

H.0:μ1=0Iμ2)=0H.1:μ10|μ2)0α=0,05

H.0(1):μ1=0H.0(1):μ10H.1(2)):μ2)=0H.1(2)):μ2)0α=0,05

H.0(1)H.0(1)

1-(1-0,05)2)=0,0975α

Ważnym faktem jest to, że dwa testy są oparte na jednym i próbce sampe!

Zauważ, że przejęliśmy niezależność. Jeśli nie możesz założyć niezależności, możesz wykazać, używając nierówności Bonferroniego $, że błąd typu I może zwiększyć się do 0,1.

Zauważ, że Bonferroni jest konserwatywny i że krokowa procedura Holma opiera się na tych samych założeniach co w przypadku Bonferroni, ale procedura Holma ma większą moc.

Gdy zmienne są dyskretne, lepiej jest użyć statystyk testowych opartych na minimalnej wartości p, a jeśli jesteś gotowy zrezygnować z kontroli błędów typu I podczas wykonywania ogromnej liczby testów, wówczas procedury False Discovery Rate mogą być bardziej wydajne.

EDYTOWAĆ :

Jeśli np. (Patrz przykład w odpowiedzi @Frank Harrell)

H.0(1):μ1=0H.1(1):μ10

H.0(2)):μ1=0H.1(2)):μ2)0

H.0(12):μ1=0Iμ2)=0H.1(12):μ10|μ2)0

H.0(1)H.1(1)H.0(2))H.1(2))


źródło
2
Myślę, że to pytanie korzysta z takiej odpowiedzi, ale sugeruję zaostrzenie sformułowania „Więc jeśli ustalimy nasz poziom istotności na 5%, to mówimy, że jesteśmy gotowi zaakceptować znalezienie fałszywych dowodów (z powodu pecha z próbką ) z szansą 5% „... To tylko prawdopodobieństwo błędu, jeśli wartość null jest rzeczywiście prawdziwa , i to warto powiedzieć. (Czy „fałszywy dowód” jest powszechnym terminem? Bardziej przyzwyczajam się do postrzegania „fałszywie pozytywnych”.)
Silverfish,
@Silverfish; Przeredagowałem to trochę, myślisz, że tak jest lepiej?
1
Myślę, że tak jest lepiej - „statystycznie udowodnione” prawdopodobnie skorzystaliby również na przeredagowaniu, wiem, że tyle osób interpretuje p <0,05 lub cokolwiek innego, ale oczywiście nie jest to tak naprawdę dowód!
Silverfish,
@Silverfish: W pełni zgadzam się, że nie jest to „dowód”, ale użyłem tego terminu z powodów dydaktycznych, ponieważ zacząłem od analogii do dowodu sprzeczności. Dodam takie wyjaśnienie na początku
Twoja edycja jest myląca. „Efekt chemioterapii” w przykładzie Franka mierzy się dwoma miarami: współczynnikiem przeżycia i kurczeniem się guza. Na oba mogą mieć wpływ chemo. Hipoteza jest oczywiście taka, że ​​chemo działa. Ale „dzieła” można skwantyfikować na dwa różne sposoby. To aspekt niejasności, o którym mówiłem w twoim nowym wątku.
ameba mówi Przywróć Monikę
4

Fajna dyskusja na temat korekcji Bonferroniego i wielkości efektu http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Również korekta Dunna-Sidaka i podejście połączone prawdopodobieństwa Fishera są warte rozważenia jako alternatywy. Niezależnie od podejścia warto zgłaszać zarówno skorygowane, jak i surowe wartości p plus wielkość efektu, aby czytelnik mógł swobodnie je interpretować.

katya
źródło
Rada, aby przedstawić zarówno surowe, jak i skorygowane wartości p, zawsze wydawała mi się rozsądna, ale czy ogólnie uważa się ją za normę, czy nawet akceptowalną?
Silverfish,
3

Po pierwsze, jest wyjątkowo konserwatywny. Metoda Holm-Bonferroni osiąga to, co osiąga metoda Bonferonni (kontrolowanie mądrego wskaźnika błędu rodziny), a jednocześnie jest jednolicie silniejsza.

TrynnaDoStat
źródło
Czy to oznacza, że ​​muszę użyć tej metody do skorygowania wyników, czy też powinienem zaakceptować wyniki w zależności od mojej hipotezy.
goro
Nie wiem, co rozumiesz przez „powinienem zaakceptować wyniki w zależności od mojej hipotezy”, ale tak, powinieneś zastosować jakąś korektę wielokrotnego testowania, ponieważ w przeciwnym razie bardzo pompujesz błąd typu 1.
TrynnaDoStat
Mam na myśli to, że „powinienem zaakceptować wyniki w zależności od mojej hipotezy”, że przeprowadziłem analizę na trzy różne sposoby, w tym metody GLM i metody permutacji. wszystkie metody dały mi znaczące wyniki i wyniki te potwierdzają moją hipotezę, że powinienem mieć znaczącą różnicę między grupami. Kiedy użyłem Bonferroni do wielokrotnej korekcji, wszystkie moje wyniki nie były znaczące. Właśnie dlatego jestem zdezorientowany. Czy ta metoda nie jest optymalna do mojej analizy, więc mogę użyć innej lub czy mogę ufać swoim wynikom w zależności od wyników z innych metod bez użycia Bonferroni?
goro
1
Okej, rozumiem co mówisz. Jeśli przetestowałeś tę samą hipotezę na 3 różne sposoby, nie zastosowałbym korekty wielokrotnego testowania. Powodem jest to, że te trzy wyniki badań są prawdopodobnie wysoce od siebie zależne.
TrynnaDoStat
3

Należy spojrzeć na metody „False Discovery Rate” jako mniej konserwatywną alternatywę dla Bonferroni. Widzieć

John D. Storey, „POZYTYWNA FAŁSZYWA ODKRYWANIE ODKRYCIA: INTERESET BAYESIAN I WARTOŚĆ q”, The Annals of Statistics 2003, t. 31, nr 6, 2013–2035.

John Mark
źródło
3
Te kontrolują różne rzeczy. FDR zapewnia, że ​​nie więcej niż 5% (lub jakakolwiek jest alfa) twoich połączeń to fałszywe alarmy, co różni się od zachowania rodzinnego poziomu błędu (co robi Bonferroni).
Matt Krause,
@Matt Krause: A jeśli dobrze rozumiem, FDR (wskaźniki fałszywych odkryć) nie gwarantują kontroli błędów typu I na wcześniej określonym poziomie? (patrz także moja odpowiedź na to pytanie)