Używam uogólnionego modelu liniowego w SPSS, aby spojrzeć na różnice w średniej liczbie gąsienic (nienormalne, przy zastosowaniu rozkładu Tweediego) na 16 różnych gatunkach roślin.
Chcę przeprowadzić wiele porównań, ale nie jestem pewien, czy powinienem użyć testu korekcji Sidaka lub Bonferroniego. Jaka jest różnica między tymi dwoma testami? Czy jedno jest lepsze od drugiego?
Odpowiedzi:
Jeśli uruchomisz niezależnych testów statystycznych, używając α jako poziomu istotności, a wartość null zostanie uzyskana w każdym przypadku, to, czy znajdziesz „istotność”, jest po prostu losowaniem zmiennej losowej. W szczególności jest on pobierany z rozkładu dwumianowego przy p = α i n = k . Na przykład, jeśli planujesz uruchomić 3 testy przy użyciu α = .05 , i (bez wiedzy) w rzeczywistości nie ma żadnej różnicy w każdym przypadku, wtedy istnieje 5% szans na znalezienie znaczącego wyniku w każdym teście. W ten sposób współczynnik błędu typu I jest utrzymywany na poziomie αk α p = α n = k α = 0,05 α dla testów pojedynczo, ale w zestawie 3 testów wskaźnik błędu długoterminowego typu I będzie wyższy. Jeśli uważasz, że sensowne jest zgrupowanie / przemyślenie tych 3 testów razem, możesz chcieć utrzymać współczynnik błędów typu I na poziomie dla zestawu jako całości , a nie tylko indywidualnie. Jak powinieneś to zrobić? Istnieją dwa podejścia, które koncentrują się na przejściu z pierwotnej wartości α (tj. Α o ) do nowej wartości (tj. Α n e w ):α α αo αn e w
Bonferroni: dostosuj używane do oceny „istotności”, tak abyα
Dunn-Sidak: dostosuj za pomocąα
(Należy zauważyć, że Dunn-Sidak zakłada, że wszystkie testy w zestawie są od siebie niezależne i mogą przynieść inflację błędu rodzinnego typu I, jeśli to założenie się nie powiedzie.)
Ważne jest, aby pamiętać, że podczas przeprowadzania testów istnieją dwa rodzaje błędów , których chcesz uniknąć: typ I (tj. Mówiąc, że jest różnica, gdy nie ma jednego) i typ II (tj. Mówiąc, że nie ma różnica, kiedy tak naprawdę jest). Zazwyczaj, gdy ludzie dyskutują na ten temat, dyskutują tylko - i wydaje się, że są świadomi / zaniepokojeni - błędami typu I. Ponadto ludzie często nie wspominają, że obliczony poziom błędu będzie obowiązywał tylko wtedy, gdy wszystkie wartości null będą prawdziwe. Jest trywialnie oczywiste, że nie można popełnić błędu typu I, jeśli hipoteza zerowa jest fałszywa, ale ważne jest, aby o tym fakcie dyskutować.
Mówię o tym, ponieważ istnieją implikacje tych faktów, które wydają się często nieuwzględniane. Po pierwsze, jeśli , podejście Dunna-Sidaka będzie oferowało wyższą moc (chociaż różnica może być dość mała przy małym k ) i dlatego zawsze powinna być preferowana (jeśli dotyczy). Po drugie, należy zastosować podejście „stopniowe” . To znaczy najpierw przetestuj największy efekt; jeśli jesteś przekonany, że null nie uzyskuje w tym przypadku, to maksymalna możliwa liczba błędów typu I wynosi k - 1 , więc następny test powinien zostać odpowiednio dostosowany i tak dalej. (To często sprawia, że ludzie czują się niekomfortowo i wyglądają jak wędkowanie, ale tak nie jestk > 1 k k - 1 łowienie ryb, ponieważ testy są niezależne i zamierzałeś je przeprowadzić, zanim zobaczysz dane. To tylko sposób na optymalne dostosowanie ). α
Powyższe obowiązuje bez względu na to, jak cenisz typ I w stosunku do błędów typu II. Jednak z góry nie ma powodu, aby sądzić, że błędy typu I są gorsze niż typu II (pomimo faktu, że wszyscy tak sądzą). Zamiast tego jest to decyzja, którą musi podjąć badacz i musi ona być specyficzna dla tej sytuacji. Osobiście, jeśli korzystam z teoretycznie sugerowanych kontrastów ortogonalnych a priori , zwykle nie dostosowuję .α
(I stwierdzając to ponownie, ponieważ jest to ważne, wszystkie powyższe założenia zakładają, że testy są niezależne. Jeśli kontrasty nie są niezależne, na przykład gdy kilka zabiegów jest porównywane z tą samą kontrolą, podejście inne niż dostosowanie , takie jak test Dunnetta, należy zastosować).α
źródło
Jeśli potrzebujesz jeszcze bardziej zaawansowanej procedury, możesz skorzystać z procedury Bonferroni-Holm.
źródło
Korekta Sidaka zakłada, że poszczególne testy są statystycznie niezależne. Korekta Bonferroniego tego nie zakłada.
źródło
Sidak i Bonferroni są tak podobne, że prawdopodobnie uzyskasz ten sam wynik niezależnie od zastosowanej procedury. Bonferroni jest tylko nieznacznie bardziej konserwatywny niż Sidak. Na przykład, dla 2 porównań i rodzinnej wartości alfa 0,05, Sidak przeprowadzałby każdy test w .0253, a Bonferroni przeprowadzałby każdy test w .0250.
Wielu komentujących na tej stronie stwierdziło, że Sidak jest ważny tylko wtedy, gdy statystyki testowe twoich porównań są niezależne. To nieprawda. Sidak pozwala na nieznaczne napełnienie rodzinnego wskaźnika błędów, gdy statystyki testu są NEGATYWNIE zależne, ale jeśli wykonujesz testy dwustronne, zależność ujemna nie jest na ogół problemem. W przypadku zależności nieujemnej Sidak w rzeczywistości zapewnia górną granicę rodzinnego poziomu błędu. To powiedziawszy, istnieją inne procedury, które zapewniają taką granicę i mają tendencję do zachowania większej mocy statystycznej niż Sidak. Więc Sidak prawdopodobnie nie jest najlepszym wyborem.
Jedną z rzeczy, które zapewnia procedura Bonferroni (czego nie robi Sidak), jest ścisła kontrola oczekiwanej liczby błędów typu I - tak zwany „wskaźnik błędów na rodzinę”, który jest bardziej konserwatywny niż rodzinny wskaźnik błędów. Aby uzyskać więcej informacji, zobacz: Frane, AV (2015) „Czy wskaźniki błędu dla rodziny typu I są istotne w naukach społecznych i behawioralnych?” Journal of Modern Applied Statistics Methods 14 (1), 12-23.
źródło