Jestem pewien, że mam to całkowicie owinięte wokół głowy, ale nie mogę tego rozgryźć.
Test t porównuje dwa rozkłady normalne przy użyciu rozkładu Z. Dlatego w DANYCH założono normalność.
ANOVA jest równoważna regresji liniowej ze zmiennymi fikcyjnymi i wykorzystuje sumy kwadratów, podobnie jak OLS. Dlatego istnieje założenie o normalności RESIDUALS.
Zajęło mi to kilka lat, ale myślę, że w końcu zrozumiałem te podstawowe fakty. Dlaczego więc test t jest równoważny ANOVA z dwiema grupami? Jak mogą być równoważne, jeśli nawet nie zakładają tego samego o danych?
distributions
regression
normality-assumption
t-test
anova
Chris Beeley
źródło
źródło
Odpowiedzi:
Test t z dwiema grupami zakłada, że każda grupa jest normalnie rozłożona z tą samą wariancją (chociaż średnie mogą się różnić w ramach alternatywnej hipotezy). Jest to równoważne z regresją ze zmienną fikcyjną, ponieważ regresja pozwala na różnicę w średniej dla każdej grupy, ale nie na wariancję. Stąd reszty (równe danym z odjętymi średnimi grupy) mają ten sam rozkład - to znaczy, że są zwykle rozkładane ze średnią zerową.
Test t z nierównymi wariancjami nie jest równoważny jednokierunkowej ANOVA.
źródło
Test t jest po prostu specjalnym przypadkiem testu F, w którym porównywane są tylko dwie grupy. Wynik obu będzie dokładnie taki sam pod względem wartości p, a także istnieje prosta zależność między statystykami F it. F = t ^ 2. Dwa testy są algebraicznie równoważne, a ich założenia są takie same.
W rzeczywistości równoważności te obejmują całą klasę ANOVA, testy t i modele regresji liniowej. Test t jest szczególnym przypadkiem ANOVA. ANOVA jest szczególnym przypadkiem regresji. Wszystkie te procedury są uwzględnione w ogólnym modelu liniowym i mają te same założenia.
Możesz myśleć o tym jak o normalności w danych, ale sprawdzasz normalność w każdej grupie - co w rzeczywistości jest tym samym, co sprawdzanie normalności w resztach, gdy jedynym predyktorem w modelu jest wskaźnik grupy. Podobnie z równymi wariancjami.
Na marginesie, R nie ma osobnych procedur dla ANOVA. Funkcje anova w R są tylko opakowaniami w funkcję lm () - to samo, co służy do dopasowania modeli regresji liniowej - spakowane nieco inaczej, aby dostarczyć to, co zwykle znajduje się w podsumowaniu ANOVA, a nie w podsumowaniu regresji.
źródło
lm()
, chyba że przejdziesz do mieszanych modeli z pakietemnlme
lublme4
, ale istnieje wygodny sposób na obsługę powtarzanych pomiarów poprzez odpowiednią specyfikacjęError
terminuaov()
, zobacz więcej szczegółów na temat samouczka Baron i Li, §6.9, j.mp/ c5ME4uaov()
jest zbudowany na górzelm()
funkcji, ale zawiera dodatkowy argument, nazywany Specjalnymi warunkami, takimi jakError
.Całkowicie zgadzam się z odpowiedzią Roba, ale powiem to inaczej (używając wikipedii):
Założenia ANOVA :
Założenia testu t :
Dlatego odrzuciłbym pytanie, ponieważ mają one oczywiście te same założenia (chociaż w innej kolejności :-)).
źródło
Jeden oczywisty punkt, który wszyscy przeoczyli: w ANOVA testujesz zero, że średnia jest identyczna niezależnie od wartości twoich zmiennych objaśniających. Za pomocą testu T można również przetestować jednostronny przypadek, że średnia jest konkretnie większa dla jednej wartości zmiennej objaśniającej niż dla drugiej.
źródło
Wolę używać testu t do porównywania dwóch grup i będę używać ANOVA dla więcej niż 2 grup, z powodów. Ważnym powodem jest założenie równych wariancji.
źródło