Czy ANOVA może być znacząca, gdy nie występuje żaden z testów t-par?

29

Czy jest możliwe, aby jednokierunkowa (z N>2 grupami lub „poziomami”) ANOVA zgłosiła znaczącą różnicę, gdy żaden z t-testów N.(N.-1)/2) nie robi tego?

W tej odpowiedzi @whuber napisał:

Dobrze wiadomo, że globalny test ANOVA F może wykryć różnicę średnich, nawet w przypadkach, w których żaden indywidualny [t nieskorygowany parami] test t żadnej z par średnich da znaczący wynik.

więc najwyraźniej jest to możliwe, ale nie rozumiem jak. Kiedy to się stanie i jaka byłaby intuicja takiego przypadku? Może ktoś może podać prosty przykład takiej sytuacji?

Kilka dalszych uwag:

  1. Przeciwnie, jest wyraźnie możliwe: ogólna ANOVA może być nieistotna, podczas gdy niektóre z testów t parami błędnie zgłaszają istotne różnice (tj. Byłyby to wyniki fałszywie dodatnie).

  2. Moje pytanie dotyczy standardowych, nieskorygowanych testów wielokrotnych porównań. Jeśli zastosowane zostaną dostosowane testy (jak np. Procedura HSD Tukeya), możliwe, że żaden z nich nie okaże się znaczący, mimo że całkowita ANOVA jest. Jest to omówione tutaj w kilku pytaniach, np. Jak uzyskać znaczącą ogólną ANOVA, ale bez znaczących różnic par w procedurze Tukeya? i znaczące oddziaływanie ANOVA, ale nieistotne porównania parami .

  3. Aktualizacja. Moje pytanie pierwotnie dotyczyło zwykłych testów t dla dwóch próbek . Jednak, jak zauważył @whuber w komentarzach, w kontekście ANOVA, testy t są zwykle rozumiane jako kontrasty post hoc przy użyciu oszacowania ANOVA wariancji wewnątrzgrupowej, pogrupowanej we wszystkich grupach (co nie zdarza się w dwóch przypadkach -próbka testu t). Tak naprawdę są dwie różne wersje mojego pytania, a odpowiedź na oba z nich okazuje się pozytywna. Patrz poniżej.

ameba mówi Przywróć Monikę
źródło
3
Twoje pytanie obejmuje wiele wątków: spróbuj przeszukać naszą stronę przy znacznej regresji . (ANOVA to aplikacja regresji metodą najmniejszych kwadratów.) Na przykład stats.stackexchange.com/questions/14500/… zawiera wyraźny przykład i intuicję. Sprawdź je i, jeśli to możliwe, edytuj swoje pytanie, aby odróżnić je od poprzednich wątków.
whuber
Dziękuję, nie widziałem tego wcześniej. Jednak naprawdę trudno mi tłumaczyć te wyjaśnienia dotyczące regresji wielokrotnej na język porównań ANOVA. To oczywiście mój własny problem, ale zgaduję, że nie jestem sam, więc może odpowiedź na moje pytanie nadal byłaby przydatna dla społeczności. Oto moje zamieszanie: ktoś podał przykład regresu ciężaru dla lewego / prawego rozmiaru buta (dwa silnie skorelowane IV) => F oznacza, t nie. Bardzo dobrze. Teraz w regresji ANOVA z 3 grupami są 2 atrapy IV; są obojętne => zawsze idealnie antykorozyjne ... I co z tego?
ameba mówi Przywróć Monikę
Obawiam się, że nie przestrzegam tej ostatniej uwagi. Po pierwsze, problem niekoniecznie wiąże się z silną korelacją w matrycy projektowej. Po drugie, manekiny nie są „perfekcyjnie skorelowane”: gdyby tak było, oprogramowanie i tak musiałoby je upuścić. Być może możesz odnosić się do subtelniejszych problemów w bardziej złożonych modelach ANOVA .
whuber
@amoeba: twoje zmienne obojętne są ujemnie skorelowane.
Michael M
3
Odstępuję od twojej „dalszej uwagi” nie. 1. Tylko dlatego, że masz bardzo znaczące porównania parami, a nieistotne F nie oznacza, że ​​te znaczące wyniki są fałszywie dodatnie. Aby mieć pewność, że coś jest fałszywie pozytywne, musisz wiedzieć, że nie ma różnicy w rzeczywistych środkach, mu. Statystyka F nie jest święta. W rzeczywistości nie jest to nawet obowiązkowe. Jest to najbardziej przydatne do wyboru modelu, ale poza tym nie ma prawie żadnego wpływu na to, co konkretnie dzieje się w twoich danych.
rvl

Odpowiedzi:

18

Uwaga: coś było nie tak z moim oryginalnym przykładem. Głupio mnie przyłapał na cichym argumentowaniu R. Mój nowy przykład jest dość podobny do mojego starego. Mam nadzieję, że wszystko jest teraz.

Oto podany przeze mnie przykład, który ma ANOVA znaczącą na poziomie 5%, ale żadne z 6 porównań parami nie jest znaczące, nawet na poziomie 5% .

Oto dane:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

wprowadź opis zdjęcia tutaj

Oto ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Oto dwie przykładowe wartości p testu t (założenie równej wariancji):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Przy odrobinie bardziej manipulacji środkami grupowymi lub pojedynczymi punktami różnica w znaczeniu mogłaby być bardziej uderzająca (przez to, że pierwszą wartość p mogłem zmniejszyć, a najniższą z zestawu sześciu wartości p dla testu t wyższą ).

-

Edycja: Oto dodatkowy przykład, który został pierwotnie wygenerowany z szumem na temat trendu, który pokazuje, o ile lepiej możesz zrobić, przesuwając punkty trochę:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F ma wartość p poniżej 3% i żaden z t nie ma wartości p poniżej 8%. (Na przykład z 3 grupami - ale z nieco większą wartością p na F - pomiń drugą grupę)

A oto bardzo prosty, choć bardziej sztuczny, przykład z 3 grupami:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(W tym przypadku największa wariancja występuje w środkowej grupie - ale ze względu na większy rozmiar próby błąd standardowy średniej grupy jest nadal mniejszy)


Testy t wielokrotnych porównań

Whuber zasugerował rozważenie przypadku wielokrotnych porównań. To okazuje się dość interesujące.

Przypadek wielokrotnych porównań (wszystkie przeprowadzone na pierwotnym poziomie istotności - tj. Bez dostosowania alfa dla wielu porównań) jest nieco trudniejszy do osiągnięcia, ponieważ bawienie się coraz większymi i mniejszymi wariancjami lub coraz mniejszymi różnicami w różnych grupach nie pomaga w taki sam sposób, jak w przypadku zwykłych testów t dwóch próbek.

Nadal jednak mamy narzędzia do manipulowania liczbą grup i poziomem istotności; jeśli wybierzemy więcej grup i mniejsze poziomy istotności, identyfikacja przypadków stanie się stosunkowo łatwa. Tutaj jest jeden:

nja=2)α=0,0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Jednak najmniejsza wartość p w porównaniach parami nie jest znacząca dla tego poziomu:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 
Glen_b - Przywróć Monikę
źródło
2
Test t dwóch próbek nie jest tym samym, co testy parowe w regresji. Różnica polega na oszacowaniu wariancji rezydualnej. Tak więc twoje przykłady nie są tak naprawdę przykładami silniejszego paradoksu, który polega na tym, że w ramach jednej i tej samej analizy regresji test F może być znaczący, podczas gdy żadne z jego porównań parami nie jest znaczące. Uważam, że ten paradoks niekoniecznie wynika również z heteroscedastyczności: może pojawić się nawet wtedy, gdy wszystkie wariancje grupowe są równe.
whuber
4
Bardziej interesujące nadal może być adres, gdy jest to możliwe do F-test, aby odrzucić NULL ale żadna z par testów t odrzucić go na tym samym poziomie istotności (przy użyciu tego samego oszacowania wariancji błędu jako F-test). Np. Dla 3 grup z jednakowymi wielkościami próbek połączenie 5% regionu odrzucenia dla par testowych t zawiera 5% regionu odrzucenia dla testu F ANOVAR, nawet gdy wielkość próbki staje się bardzo duża.
Scortchi - Przywróć Monikę
4
0,005fa
4
Amoeba, zamieszanie wynika z faktu, że „testy t pary” mogą oznaczać dwie rzeczy. W kontekście analizy ANOVA zwykle należy rozumieć, że oznacza kontrasty post hoc przy użyciu oszacowań ANOVA. Jak zauważyli inni, nie jest to równoznaczne z przeprowadzeniem zwykłego testu t na parach grup, ponieważ wersja ANOVA opiera się na oszacowaniu wariancji wewnątrzgrupowej uzyskanej ze wszystkich grup.
whuber
2
Myślę, że dobrze podsumowałeś. Odniosłem się do paradoksu jako „silniejszego” w tym sensie, że kiedy wszystkie testy są przeprowadzane w ramach pojedynczej analizy ANOVA, można (naiwnie) oczekiwać, że będą one wewnętrznie spójne. (Gdy przeprowadzasz dwa zestawy testów, które nie są ze sobą nierozerwalnie związane, nie powinno być zaskoczeniem, gdy dają sprzeczne wyniki: zdarza się to często.) Musimy zaakceptować, że logicznie spójne i statystycznie poprawne jest wnioskowanie tej grupy średnie różnią się znacznie, nie znajdując różnic między konkretnymi parami grup.
whuber
4

Podsumowanie: Uważam, że jest to możliwe, ale bardzo, bardzo mało prawdopodobne. Różnica będzie niewielka, a jeśli tak się stanie, to dlatego, że naruszono założenie (takie jak homoscedastyczność wariancji).

Oto kod, który szuka takiej możliwości. Zauważ, że zwiększa ziarno o 1 za każdym razem, gdy jest uruchamiane, dzięki czemu ziarno jest przechowywane (a wyszukiwanie przez nasiona jest systematyczne).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Szukając znaczącego R2 i żadnych nieistotnych testów t, nie znalazłem niczego, aż do nasion 18 000. Szukając niższej wartości p z R2 niż z testów t, otrzymuję wynik przy seed = 323, ale różnica jest bardzo, bardzo mała. Możliwe, że poprawienie parametrów (zwiększenie liczby grup?) Może pomóc. Powodem, dla którego wartość p R2 może być mniejsza, jest to, że gdy błąd standardowy jest obliczany dla parametrów w regresji, wszystkie grupy są łączone, więc standardowy błąd różnicy jest potencjalnie mniejszy niż w teście t.

Zastanawiałem się, czy pogwałcenie heteroscedastyczności może pomóc (tak jak było). To robi. Jeśli użyję

y <- (rnorm(600) + x * 0.01) * x * 5

Aby wygenerować y, znajduję odpowiedni wynik dla seed = 1889, gdzie minimalna wartość p z testów t wynosi 0,061, a wartość p związana z kwadratem R wynosi 0,046.

Jeśli zmienię rozmiary grup (co zwiększa efekt naruszenia heteroscedastyczności), zastępując próbkowanie x przez:

x <- sample(c(0:5), 100, replace=TRUE)

Otrzymuję znaczący wynik przy nasionach = 531, przy minimalnej wartości p dla testu t przy 0,063 i wartości p dla R2 przy 0,046.

Jeśli przestanę poprawiać heteroscedastyczność w teście t, używając:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Mój wniosek jest taki, że jest to bardzo mało prawdopodobne, a różnica prawdopodobnie będzie bardzo niewielka, chyba że naruszyłeś założenie homoscedastyczności podczas regresji. Spróbuj przeprowadzić analizę z solidnym / sandwich / czymkolwiek, co chcesz nazwać korekcją.

Jeremy Miles
źródło
Wydaje się, że masz niedokończone zdanie zaczynające się od „Jeśli przestanę poprawiać heteroscedastyczność w teście t”. Poza tym wielkie dzięki! Proszę zobaczyć moją aktualizację pytania. Zwróć też uwagę na pierwszy komentarz @ Whubera tutaj; jeśli dobrze rozumiem, podkreśla, że ​​taka sytuacja może łatwo (?) się zdarzyć (i nazywa to „dobrze znaną”). Może jest tu jakieś nieporozumienie, ale co to jest?
ameba mówi Przywróć Monikę
Myślę, że @ whuber mówi o nieistotnych parametrach w modelu, a nie o nieistotnych testach t.
Jeremy Miles
Nie, on nie jest. Jeśli jest dobrze znany, nie wiem i próbowałem wymyślić przykład, ale nie mogę.
Jeremy Miles
1
Cieszę się zatem, że @Glen_b dał prosty przykład. Intuicja polega na tym, że ogólny test ocenia, czy istnieją dowody na to, że rozprzestrzenianie się w grupie oznacza, że ​​nie można rozsądnie wytłumaczyć samą różnicą resztkową. Testy parami, obejmujące tylko dwa środki jednocześnie, muszą być znacznie bardziej konserwatywne przy ocenie tych samych dowodów. Dlatego nawet porównanie dwóch skrajnych średnich grup może nie wykryć znaczącej różnicy, gdy ogólny rozkład wszystkich średnich jest znaczący. Zdarza się to czasami w praktyce, szczególnie w przypadku dużej liczby grup.
whuber
3
BTW, powód nazywania tego „dobrze znanym” wynika z moich wspomnień o byciu ostrzeżonym o tym w podręczniku oprogramowania Systat c. 1989. Był to bardzo pouczający podręcznik (większość napisany osobiście przez Lelanda Wilkinsona , programistę) i prawdopodobnie nadal jest. Instrukcja jest dostępna online, ale musisz się zarejestrować na stronie Systat, aby móc ją pobrać.
whuber
2

Jest to całkowicie możliwe:

  • Co najmniej jeden test t pary jest oznakujący, ale ogólny test F nie
  • Ogólny test F jest znaczący, ale żaden z testów t pary nie jest

Ogólny test F sprawdza wszystkie kontrasty jednocześnie . Jako taki musi być mniej wrażliwy (mniejsza moc statystyczna) na poszczególne kontrasty (np. Test parami). Te dwa testy są ze sobą ściśle powiązane, ale nie zgłaszają dokładnie tego samego.

Jak widać, zalecenie podręcznika, by nie robić zaplanowanych porównań, chyba że ogólny test F jest znaczący, nie zawsze jest poprawne. W rzeczywistości zalecenie może uniemożliwić nam znalezienie znaczących różnic, ponieważ ogólny test F ma mniejszą moc niż planowane porównania do testowania konkretnych różnic.

SmallChess
źródło
Nie jestem pewien, czy podążam za logiką twojej odpowiedzi. Czy mówisz, że odrzucenie H0 przez test F oznacza, że ​​istnieje co najmniej jeden niezerowy kontrast, ale ten kontrast może nie odpowiadać żadnemu z porównań parami? Jeśli tak, czy to oznacza, że ​​jeśli test F odrzuci H0, to co najmniej jeden z testów parami dla wszystkich możliwych kontrastów również doprowadzi do odrzucenia?
ameba mówi Przywróć Monikę
@amoeba Zredagowałem swoją odpowiedź.
SmallChess