Czy potrzebujemy globalnego testu przed testami post hoc?

54

Często słyszę, że testy post hoc po ANOVA można stosować tylko wtedy, gdy sama ANOVA była znacząca.

  • Jednak testy post hoc dostosowują wartości aby utrzymać globalny poziom błędu typu I na poziomie 5%, prawda?p
  • Dlaczego więc najpierw potrzebujemy globalnego testu?
  • Jeśli nie potrzebujemy globalnego testu, czy terminologia „post hoc” jest poprawna?

  • Czy też istnieje wiele rodzajów testów post hoc, niektóre zakładają znaczący globalny wynik testu, a inne bez tego założenia?

parzysty
źródło

Odpowiedzi:

58

Ponieważ wielokrotne testy porównawcze są często nazywane „testami końcowymi”, można by pomyśleć, że logicznie odpowiadają jednokierunkowej ANOVA. W rzeczywistości tak nie jest.

Niefortunną powszechną praktyką jest przeprowadzanie wielu porównań tylko wtedy, gdy odrzucona zostanie hipoteza jednorodności kadłuba. ” ( Hsu, strona 177 )

Czy wyniki posttestów będą ważne, jeśli ogólna wartość P dla ANOVA będzie większa niż 0,05?

O dziwo odpowiedź brzmi: tak. Z jednym wyjątkiem, testy końcowe są ważne, nawet jeśli ogólna ANOVA nie znalazła znaczącej różnicy między średnimi.

Wyjątkiem jest pierwszy wynaleziony test wielokrotnego porównania, chroniony test najmniejszej znaczącej różnicy Fishera (LSD). Pierwszym krokiem chronionego testu LSD jest sprawdzenie, czy ogólna ANOVA odrzuca hipotezę zerową identycznych środków. Jeśli nie, nie należy dokonywać indywidualnych porównań. Ale ten chroniony test LSD jest przestarzały i nie jest już zalecany.

Czy można uzyskać „znaczący” wynik z testu wielokrotnych porównań, nawet jeśli ogólna ANOVA nie była znacząca?

Tak to mozliwe. Wyjątkiem jest test Scheffe. Jest to powiązane z ogólnym testem F. Jeśli ogólna ANOVA ma wartość P większą niż 0,05, test Scheffe'a nie znajdzie żadnych znaczących testów końcowych. W takim przypadku przeprowadzanie testów po ogólnej nieistotnej ANOVA jest stratą czasu, ale nie prowadzi do nieważnych wniosków. Ale inne testy wielokrotnego porównania mogą znaleźć znaczące różnice (czasami), nawet jeśli ogólna ANOVA nie wykazała istotnych różnic między grupami.

Jak mogę zrozumieć pozorną sprzeczność między ANOVA, która mówi, że w efekcie wszystkie średnie grupowe są identyczne, a różnice w znalezieniu po badaniu?

Ogólna jednokierunkowa ANOVA sprawdza hipotezę zerową, że wszystkie grupy leczenia mają identyczne wartości średnie, więc każda zaobserwowana różnica wynika z losowego próbkowania. Każdy posttest testuje hipotezę zerową, że dwie szczególne grupy mają identyczne środki.

Testy końcowe są bardziej skoncentrowane, więc mają moc znajdowania różnic między grupami, nawet gdy ogólna ANOVA informuje, że różnice między średnimi nie są istotne statystycznie.

Czy wyniki ogólnej ANOVA są w ogóle przydatne?

ANOVA testuje ogólną hipotezę zerową, że wszystkie dane pochodzą z grup o identycznych średnich. Jeśli to twoje pytanie eksperymentalne - czy dane dostarczają przekonujących dowodów na to, że nie wszystkie środki są identyczne - to ANOVA jest dokładnie tym, czego chcesz. Częściej pytania eksperymentalne są bardziej ukierunkowane i odpowiadają na nie wielokrotne testy porównawcze (testy końcowe). W takich przypadkach możesz bezpiecznie zignorować ogólne wyniki ANOVA i przejść od razu do wyników po teście.

Należy pamiętać, że wszystkie obliczenia wielokrotnego porównania wykorzystują wynik średniej kwadratowej z tabeli ANOVA. Więc nawet jeśli nie zależy ci na wartości F lub wartości P, testy końcowe nadal wymagają obliczenia tabeli ANOVA.

Harvey Motulsky
źródło
1
To świetna odpowiedź Harvey - dziękuję za napisanie!
pmgjones
3
(+1) Ostatnie dwa akapity stanowią dobry kontekst dla zrozumienia i docenienia całej odpowiedzi.
whuber
4
Doskonała odpowiedź i dodam kilka cytatów z Maxwell i Delaney (2004): „... te metody [np. Bonferroni, Tukey, Dunnet itp.] Powinny być postrzegane jako substytuty testu omnibus, ponieważ kontrolują one alphaEW na tobie pożądany poziom sam. Wymaganie znaczącego testu zbiorczego przed przystąpieniem do wykonania którejkolwiek z tych analiz, jak to się czasem robi, służy jedynie obniżeniu alfaEW poniżej pożądanego poziomu (Bernhardson, 1975), a zatem niewłaściwie zmniejsza moc ”(s. 236) .
dfife,
Lubię „więc mam moc znaleźć różnice między grupami ...”
SmallChess
Chociaż nie jest to pytanie, myślę, że powinienem wspomnieć - ponieważ może to nie być oczywiste - że sytuacja odwrotna jest również możliwa w niektórych sytuacjach (że test omnibus odrzuca, ale nie ma porównania w parach)
Glen_b
25

(1) Testy post hoc mogą, ale nie muszą, osiągnąć nominalny globalny poziom błędu typu I, w zależności od (a) tego, czy analityk dostosowuje się do liczby testów oraz (b) w jakim stopniu testy post hoc są niezależne od jednego inne. Najpierw zastosowanie globalnego testu jest dość solidną ochroną przed ryzykiem (nawet przypadkowym) odkrycia fałszywych „znaczących” wyników szpiegowania danych post-hoc .

(2) Istnieje problem mocy. Dobrze wiadomo, że globalny test ANOVA F może wykryć różnicę średnich, nawet w przypadkach, w których żaden indywidualny test t żadnej z par średnich nie da znaczącego wyniku. Innymi słowy, w niektórych przypadkach dane mogą ujawnić, że prawdziwe środki prawdopodobnie różnią się, ale nie mogą z wystarczającą pewnością zidentyfikować, które pary środków różnią się.

Whuber
źródło
Re (2): kiedy mówisz, że jednokierunkowa ANOVA może zgłosić znaczącą różnicę, gdy nie robi tego żaden z testów t-par, czy masz na myśli proste nieskorygowane („nie po”, np. Nie procedura Tukeya itp.) testy t? Myślałem, że to nigdy nie będzie możliwe, czy się myliłem?
ameba mówi Przywróć Monikę
@amoeba Zgadza się; Mam na myśli nieskorygowane testy parowe. Dziękuję za wyjaśnienie tej kwestii.
whuber
Dziękuję, @whuber. Próbowałem znaleźć dyskusję na ten temat tutaj na CrossValidated, ale bezskutecznie. Więc wysłałem moje własne pytanie o tym, jak jest taka sytuacja możliwa: stats.stackexchange.com/questions/83030/... . Byłbym bardzo wdzięczny, gdybyś mógł tam opracować!
ameba mówi Przywróć Monikę
3
@amoba i @whuber: Prawdopodobnie to wiesz, ale i tak chciałbym to wyjaśnić. Zauważ, że test ANOVA może być znaczący, nawet jeśli żaden z testów HSD Tukeya nie jest. Prosty przykład R ze zrównoważonym zestawem danych z trzema grupami:set.seed(249); group = rep(1:3, each=2); y = group + rnorm(6); mod = aov(y~factor(group)); summary(mod); TukeyHSD(mod); plot(y~group)
Karl Ove Hufthammer
1
Cóż, czy nie można przynajmniej przypuszczać, że istniała różnica między tymi dwoma średnimi, przy czym największa różnica między nimi, ponieważ hipoteza zerowa ANOVA jest taka, że ​​co najmniej jedna para średnich różni się od siebie?
Speldosa