Sidak czy Bonferroni?

13

Używam uogólnionego modelu liniowego w SPSS, aby spojrzeć na różnice w średniej liczbie gąsienic (nienormalne, przy zastosowaniu rozkładu Tweediego) na 16 różnych gatunkach roślin.

Chcę przeprowadzić wiele porównań, ale nie jestem pewien, czy powinienem użyć testu korekcji Sidaka lub Bonferroniego. Jaka jest różnica między tymi dwoma testami? Czy jedno jest lepsze od drugiego?

Emilia
źródło
1
Nienawidzę faktu, że takie korekty są często potrzebne przy standardowych testach częstokroć hipotetycznych i zdecydowanie wolę techniki bayesowskie. To powiedziawszy, mniej nienawidzę korekty Sidaka, ponieważ wydaje się ona mniej ad-hoc (jeśli jesteś gotów zaakceptować założenie niezależności). Jest to w większości tylko osobiste preferencje, więc zrobiłem z niego komentarz zamiast odpowiedzi.
Michael McGowan
1
@MichaelMcGowan: Ciekawe, ale co uważasz za „ ad hoc ” w związku z poprawką Bonferroniego?
kardynał
@cardinal Przepraszamy, to prawdopodobnie nie był najlepszy wybór słów. Kosztem silniejszych założeń (nie chcę bagatelizować tego kosztu), korekta Sidaka tworzy granicę o bardziej jakościowym znaczeniu. Naprawdę nie potrafię jakościowo wyjaśnić, co granica reprezentuje w korekcie Bonferroniego, poza rodzajem najgorszego przypadku związanego z nierównością Boole'a.
Michael McGowan
@MichaelMcGowan: Ach, ok. Widzę. Przypuszczam, że jest kilka jakościowych rzeczy, które można powiedzieć o Bonferroni: (a) Zapewnia gwarantowaną ochronę przed rodzinnym poziomem błędów, niezależnie od zależności między poszczególnymi statystykami testu pod zerą i (b) Jest to dokładnie poprawna poprawka do wykonania, gdy obszary odrzucenia poszczególnych testów hipotez są rozłączne parami.
kardynał
1
Dwa testy nie są niezależne, jeśli prawdopodobieństwo błędu typu I dla jednego testu koreluje z prawdopodobieństwem dla drugiego testu. Załóżmy na przykład, że przeprowadzasz eksperyment z jednym warunkiem kontrolnym i dwoma warunkami testowymi. Dwa testy porównujące każdy warunek testowy z warunkiem kontrolnym nie są niezależne. Możesz to zobaczyć, biorąc pod uwagę, co się stanie, jeśli przypadkowo otrzymasz ekstremalną wartość dla warunków kontroli. To spowodowałoby, że oba te testy byłyby bardziej istotne statystycznie.

Odpowiedzi:

20

Jeśli uruchomisz niezależnych testów statystycznych, używając α jako poziomu istotności, a wartość null zostanie uzyskana w każdym przypadku, to, czy znajdziesz „istotność”, jest po prostu losowaniem zmiennej losowej. W szczególności jest on pobierany z rozkładu dwumianowego przy p = α i n = k . Na przykład, jeśli planujesz uruchomić 3 testy przy użyciu α = .05 , i (bez wiedzy) w rzeczywistości nie ma żadnej różnicy w każdym przypadku, wtedy istnieje 5% szans na znalezienie znaczącego wyniku w każdym teście. W ten sposób współczynnik błędu typu I jest utrzymywany na poziomie αkαp=αn=kα=.05αdla testów pojedynczo, ale w zestawie 3 testów wskaźnik błędu długoterminowego typu I będzie wyższy. Jeśli uważasz, że sensowne jest zgrupowanie / przemyślenie tych 3 testów razem, możesz chcieć utrzymać współczynnik błędów typu I na poziomie dla zestawu jako całości , a nie tylko indywidualnie. Jak powinieneś to zrobić? Istnieją dwa podejścia, które koncentrują się na przejściu z pierwotnej wartości α (tj. Α o ) do nowej wartości (tj. Α n e w ):αααoαnew

Bonferroni: dostosuj używane do oceny „istotności”, tak abyα

αnew=αok

Dunn-Sidak: dostosuj za pomocąα

αnew=1(1αo)1/k

(Należy zauważyć, że Dunn-Sidak zakłada, że ​​wszystkie testy w zestawie są od siebie niezależne i mogą przynieść inflację błędu rodzinnego typu I, jeśli to założenie się nie powiedzie.)

Ważne jest, aby pamiętać, że podczas przeprowadzania testów istnieją dwa rodzaje błędów , których chcesz uniknąć: typ I (tj. Mówiąc, że jest różnica, gdy nie ma jednego) i typ II (tj. Mówiąc, że nie ma różnica, kiedy tak naprawdę jest). Zazwyczaj, gdy ludzie dyskutują na ten temat, dyskutują tylko - i wydaje się, że są świadomi / zaniepokojeni - błędami typu I. Ponadto ludzie często nie wspominają, że obliczony poziom błędu będzie obowiązywał tylko wtedy, gdy wszystkie wartości null będą prawdziwe. Jest trywialnie oczywiste, że nie można popełnić błędu typu I, jeśli hipoteza zerowa jest fałszywa, ale ważne jest, aby o tym fakcie dyskutować.

Mówię o tym, ponieważ istnieją implikacje tych faktów, które wydają się często nieuwzględniane. Po pierwsze, jeśli , podejście Dunna-Sidaka będzie oferowało wyższą moc (chociaż różnica może być dość mała przy małym k ) i dlatego zawsze powinna być preferowana (jeśli dotyczy). Po drugie, należy zastosować podejście „stopniowe” . To znaczy najpierw przetestuj największy efekt; jeśli jesteś przekonany, że null nie uzyskuje w tym przypadku, to maksymalna możliwa liczba błędów typu I wynosi k - 1 , więc następny test powinien zostać odpowiednio dostosowany i tak dalej. (To często sprawia, że ​​ludzie czują się niekomfortowo i wyglądają jak wędkowanie, ale tak nie jestk>1kk1łowienie ryb, ponieważ testy są niezależne i zamierzałeś je przeprowadzić, zanim zobaczysz dane. To tylko sposób na optymalne dostosowanie ). α

Powyższe obowiązuje bez względu na to, jak cenisz typ I w stosunku do błędów typu II. Jednak z góry nie ma powodu, aby sądzić, że błędy typu I są gorsze niż typu II (pomimo faktu, że wszyscy tak sądzą). Zamiast tego jest to decyzja, którą musi podjąć badacz i musi ona być specyficzna dla tej sytuacji. Osobiście, jeśli korzystam z teoretycznie sugerowanych kontrastów ortogonalnych a priori , zwykle nie dostosowuję .α

(I stwierdzając to ponownie, ponieważ jest to ważne, wszystkie powyższe założenia zakładają, że testy są niezależne. Jeśli kontrasty nie są niezależne, na przykład gdy kilka zabiegów jest porównywane z tą samą kontrolą, podejście inne niż dostosowanie , takie jak test Dunnetta, należy zastosować). α

gung - Przywróć Monikę
źródło
+1. Czy to, co nazywacie podejściem „stopniowym” dla Bonferroniego, jest dokładnie równoważne z metodą znaną jako metoda Holma-Bonferroniego? Jeśli tak, to czy ta sama logika zastosowana do Dunn-Sidaka ma nazwę?
ameba mówi Przywróć Monikę
1
@amoeba, tak, czasami nazywa się to „metodą Holma”, stąd Holm-Bonferroni lub Holm-Sidak.
gung - Przywróć Monikę
Dzięki. Kolejne pytanie, jakie mam, dotyczy twojego stwierdzenia, że ​​jeśli używasz teoretycznie sugerowanych kontrastów ortogonalnych z góry, zazwyczaj nie dostosowujesz . Jak ważny jest tutaj „ortogonalny”? Np. Jeśli masz 6 grup przedmiotowych i porównujesz grupy 2, 3, 4, 5 i 6 z grupą 1 (gdzie grupa 1 może np. Być grupą kontrolną), to są to kontrasty nieortogonalne. Czy czułbyś się inaczej przy dostosowywaniu α w tym przypadku niż wtedy, gdy twoje kontrasty rzeczywiście są ortogonalne, na przykład 1-2, 3-4, 5-6? Jeśli tak, to dlaczego? αα
ameba mówi Przywróć Monikę
@amoeba, przeprowadzając 3 kontrasty z góry, ortogonalne kontrasty w 1 badaniu nie różni się niczym od wykonania 1 kontrastu z góry w każdym z 3 różnych badań. Ponieważ nikt nie twierdzi, że potrzebujesz korekt rodzinnych w przypadku tych drugich, nie ma spójnego powodu, aby wymagać ich w przypadku tych drugich. W innym przykładzie, jeśli grupa kontrolna przypadkowo rzuci się niżej, każdy z 5 kontrastów będzie dobrze wyglądał; ale jest mało prawdopodobne, aby przeprowadzić 5 niezależnych badań. Naprawdę powinieneś użyć jakiejś formy dostosowania lub możesz użyć testu Dunnetta .
Gung - Przywróć Monikę
N(0,1)n=10α=0.05
6

ααnα=α/nα=1(1α)1/n

α/n<1(1α)1/n

Jeśli potrzebujesz jeszcze bardziej zaawansowanej procedury, możesz skorzystać z procedury Bonferroni-Holm.

Momo
źródło
Dlaczego Bonferroni jest prostszy w obsłudze?
Emily,
3
αn1(1α)1/n
@Momo Komputery są naprawdę bardzo dobre w arytmetyce, więc nie uważam argumentu prostoty za bardzo przekonujący. Sto lat temu, kiedy obliczenia były wykonywane ręcznie, była zupełnie inna historia.
Michael McGowan
+1 w porównaniu do mojej odpowiedzi, trafia to do sedna dość zwięźle ;-).
gung - Przywróć Monikę
Haha, tak myślałem, że masz na myśli! Dzięki wielkie!
Emily,
5

Korekta Sidaka zakłada, że ​​poszczególne testy są statystycznie niezależne. Korekta Bonferroniego tego nie zakłada.

jeden przystanek
źródło
Czy to oznacza, że ​​Bonferroni jest po prostu bardziej konserwatywnym testem?
Emily,
1
Bonferroni jest bardziej konserwatywny, gdy oba testy są odpowiednie. Ale jeśli twoje testy nie są niezależne, nie powinieneś używać Sidaka.
onestop
2
+1 To, że korekta Bonferroniego nie wymaga niezależności testów, to dobra kwestia, której nie uwzględniłem.
gung - Przywróć Monikę
@onestop: Co to znaczy, że testy są niezależne? Czy mógłbyś podać przykład?
Gunnhild
1
Korekta Sidaka nie wymaga niezależności. Zakłada jedynie, że testy nie są zależne negatywnie. Pozytywna zależność jest w porządku.
Bonferroni
4

Sidak i Bonferroni są tak podobne, że prawdopodobnie uzyskasz ten sam wynik niezależnie od zastosowanej procedury. Bonferroni jest tylko nieznacznie bardziej konserwatywny niż Sidak. Na przykład, dla 2 porównań i rodzinnej wartości alfa 0,05, Sidak przeprowadzałby każdy test w .0253, a Bonferroni przeprowadzałby każdy test w .0250.

Wielu komentujących na tej stronie stwierdziło, że Sidak jest ważny tylko wtedy, gdy statystyki testowe twoich porównań są niezależne. To nieprawda. Sidak pozwala na nieznaczne napełnienie rodzinnego wskaźnika błędów, gdy statystyki testu są NEGATYWNIE zależne, ale jeśli wykonujesz testy dwustronne, zależność ujemna nie jest na ogół problemem. W przypadku zależności nieujemnej Sidak w rzeczywistości zapewnia górną granicę rodzinnego poziomu błędu. To powiedziawszy, istnieją inne procedury, które zapewniają taką granicę i mają tendencję do zachowania większej mocy statystycznej niż Sidak. Więc Sidak prawdopodobnie nie jest najlepszym wyborem.

Jedną z rzeczy, które zapewnia procedura Bonferroni (czego nie robi Sidak), jest ścisła kontrola oczekiwanej liczby błędów typu I - tak zwany „wskaźnik błędów na rodzinę”, który jest bardziej konserwatywny niż rodzinny wskaźnik błędów. Aby uzyskać więcej informacji, zobacz: Frane, AV (2015) „Czy wskaźniki błędu dla rodziny typu I są istotne w naukach społecznych i behawioralnych?” Journal of Modern Applied Statistics Methods 14 (1), 12-23.

Bonferroni
źródło