Czy jest możliwe, aby jednokierunkowa (z grupami lub „poziomami”) ANOVA zgłosiła znaczącą różnicę, gdy żaden z t-testów nie robi tego?
W tej odpowiedzi @whuber napisał:
Dobrze wiadomo, że globalny test ANOVA F może wykryć różnicę średnich, nawet w przypadkach, w których żaden indywidualny [t nieskorygowany parami] test t żadnej z par średnich da znaczący wynik.
więc najwyraźniej jest to możliwe, ale nie rozumiem jak. Kiedy to się stanie i jaka byłaby intuicja takiego przypadku? Może ktoś może podać prosty przykład takiej sytuacji?
Kilka dalszych uwag:
Przeciwnie, jest wyraźnie możliwe: ogólna ANOVA może być nieistotna, podczas gdy niektóre z testów t parami błędnie zgłaszają istotne różnice (tj. Byłyby to wyniki fałszywie dodatnie).
Moje pytanie dotyczy standardowych, nieskorygowanych testów wielokrotnych porównań. Jeśli zastosowane zostaną dostosowane testy (jak np. Procedura HSD Tukeya), możliwe, że żaden z nich nie okaże się znaczący, mimo że całkowita ANOVA jest. Jest to omówione tutaj w kilku pytaniach, np. Jak uzyskać znaczącą ogólną ANOVA, ale bez znaczących różnic par w procedurze Tukeya? i znaczące oddziaływanie ANOVA, ale nieistotne porównania parami .
Aktualizacja. Moje pytanie pierwotnie dotyczyło zwykłych testów t dla dwóch próbek . Jednak, jak zauważył @whuber w komentarzach, w kontekście ANOVA, testy t są zwykle rozumiane jako kontrasty post hoc przy użyciu oszacowania ANOVA wariancji wewnątrzgrupowej, pogrupowanej we wszystkich grupach (co nie zdarza się w dwóch przypadkach -próbka testu t). Tak naprawdę są dwie różne wersje mojego pytania, a odpowiedź na oba z nich okazuje się pozytywna. Patrz poniżej.
źródło
Odpowiedzi:
Uwaga: coś było nie tak z moim oryginalnym przykładem. Głupio mnie przyłapał na cichym argumentowaniu R. Mój nowy przykład jest dość podobny do mojego starego. Mam nadzieję, że wszystko jest teraz.
Oto podany przeze mnie przykład, który ma ANOVA znaczącą na poziomie 5%, ale żadne z 6 porównań parami nie jest znaczące, nawet na poziomie 5% .
Oto dane:
Oto ANOVA:
Oto dwie przykładowe wartości p testu t (założenie równej wariancji):
Przy odrobinie bardziej manipulacji środkami grupowymi lub pojedynczymi punktami różnica w znaczeniu mogłaby być bardziej uderzająca (przez to, że pierwszą wartość p mogłem zmniejszyć, a najniższą z zestawu sześciu wartości p dla testu t wyższą ).
-
Edycja: Oto dodatkowy przykład, który został pierwotnie wygenerowany z szumem na temat trendu, który pokazuje, o ile lepiej możesz zrobić, przesuwając punkty trochę:
F ma wartość p poniżej 3% i żaden z t nie ma wartości p poniżej 8%. (Na przykład z 3 grupami - ale z nieco większą wartością p na F - pomiń drugą grupę)
A oto bardzo prosty, choć bardziej sztuczny, przykład z 3 grupami:
(W tym przypadku największa wariancja występuje w środkowej grupie - ale ze względu na większy rozmiar próby błąd standardowy średniej grupy jest nadal mniejszy)
Testy t wielokrotnych porównań
Whuber zasugerował rozważenie przypadku wielokrotnych porównań. To okazuje się dość interesujące.
Przypadek wielokrotnych porównań (wszystkie przeprowadzone na pierwotnym poziomie istotności - tj. Bez dostosowania alfa dla wielu porównań) jest nieco trudniejszy do osiągnięcia, ponieważ bawienie się coraz większymi i mniejszymi wariancjami lub coraz mniejszymi różnicami w różnych grupach nie pomaga w taki sam sposób, jak w przypadku zwykłych testów t dwóch próbek.
Nadal jednak mamy narzędzia do manipulowania liczbą grup i poziomem istotności; jeśli wybierzemy więcej grup i mniejsze poziomy istotności, identyfikacja przypadków stanie się stosunkowo łatwa. Tutaj jest jeden:
Jednak najmniejsza wartość p w porównaniach parami nie jest znacząca dla tego poziomu:
źródło
Podsumowanie: Uważam, że jest to możliwe, ale bardzo, bardzo mało prawdopodobne. Różnica będzie niewielka, a jeśli tak się stanie, to dlatego, że naruszono założenie (takie jak homoscedastyczność wariancji).
Oto kod, który szuka takiej możliwości. Zauważ, że zwiększa ziarno o 1 za każdym razem, gdy jest uruchamiane, dzięki czemu ziarno jest przechowywane (a wyszukiwanie przez nasiona jest systematyczne).
Szukając znaczącego R2 i żadnych nieistotnych testów t, nie znalazłem niczego, aż do nasion 18 000. Szukając niższej wartości p z R2 niż z testów t, otrzymuję wynik przy seed = 323, ale różnica jest bardzo, bardzo mała. Możliwe, że poprawienie parametrów (zwiększenie liczby grup?) Może pomóc. Powodem, dla którego wartość p R2 może być mniejsza, jest to, że gdy błąd standardowy jest obliczany dla parametrów w regresji, wszystkie grupy są łączone, więc standardowy błąd różnicy jest potencjalnie mniejszy niż w teście t.
Zastanawiałem się, czy pogwałcenie heteroscedastyczności może pomóc (tak jak było). To robi. Jeśli użyję
Aby wygenerować y, znajduję odpowiedni wynik dla seed = 1889, gdzie minimalna wartość p z testów t wynosi 0,061, a wartość p związana z kwadratem R wynosi 0,046.
Jeśli zmienię rozmiary grup (co zwiększa efekt naruszenia heteroscedastyczności), zastępując próbkowanie x przez:
Otrzymuję znaczący wynik przy nasionach = 531, przy minimalnej wartości p dla testu t przy 0,063 i wartości p dla R2 przy 0,046.
Jeśli przestanę poprawiać heteroscedastyczność w teście t, używając:
Mój wniosek jest taki, że jest to bardzo mało prawdopodobne, a różnica prawdopodobnie będzie bardzo niewielka, chyba że naruszyłeś założenie homoscedastyczności podczas regresji. Spróbuj przeprowadzić analizę z solidnym / sandwich / czymkolwiek, co chcesz nazwać korekcją.
źródło
Jest to całkowicie możliwe:
Ogólny test F sprawdza wszystkie kontrasty jednocześnie . Jako taki musi być mniej wrażliwy (mniejsza moc statystyczna) na poszczególne kontrasty (np. Test parami). Te dwa testy są ze sobą ściśle powiązane, ale nie zgłaszają dokładnie tego samego.
Jak widać, zalecenie podręcznika, by nie robić zaplanowanych porównań, chyba że ogólny test F jest znaczący, nie zawsze jest poprawne. W rzeczywistości zalecenie może uniemożliwić nam znalezienie znaczących różnic, ponieważ ogólny test F ma mniejszą moc niż planowane porównania do testowania konkretnych różnic.
źródło