Dlaczego ANOVA jest nauczana / stosowana tak, jakby była inną metodologią badawczą niż regresja liniowa?

91

ANOVA jest równoważna regresji liniowej z użyciem odpowiednich zmiennych fikcyjnych. Wnioski pozostają takie same, niezależnie od tego, czy używasz ANOVA czy regresji liniowej.

Czy w świetle ich równoważności istnieje jakikolwiek powód, dla którego stosuje się ANOVA zamiast regresji liniowej?

Uwaga: Jestem szczególnie zainteresowany słyszeniem o technicznych przyczynach zastosowania ANOVA zamiast regresji liniowej.

Edytować

Oto jeden przykład użycia jednokierunkowej ANOVA. Załóżmy, że chcesz wiedzieć, czy średni wzrost mężczyzn i kobiet jest taki sam. Aby przetestować swoją hipotezę, należy zebrać dane z losowej próbki mężczyzn i kobiet (powiedzmy po 30) i przeprowadzić analizę ANOVA (tj. Sumę kwadratów dla płci i błędu), aby zdecydować, czy występuje efekt.

Możesz również użyć regresji liniowej do przetestowania tego w następujący sposób:

Zdefiniuj: jeśli respondent jest mężczyzną, a przeciwnym razie. gdzie:0 Wysokość = Przechwyć + β Płeć + błąd błędu N ( 0 , σ 2 )Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

Następnie test, czy jest równoważnym testem dla twojej hipotezy.β=0

gung
źródło
2
Jeśli się nie mylę, regresja liniowa jest oszacowaniem współczynników, które definiują dobrą mapę liniową od X do Y. ANOVA jest testem sprawdzającym, czy istnieją znaczące różnice w X, gdy Y przyjmuje dwie różne wartości. Czy możesz wyjaśnić nam, dlaczego uważasz, że są takie same?
robin girard
28
ANOVA może być postrzegana jako „cukier syntaktyczny” dla specjalnej podgrupy modeli regresji liniowej. ANOVA jest regularnie używana przez badaczy, którzy nie są statystykami z wykształcenia. Są teraz „zinstytucjonalizowane” i ciężko przekonwertować je z powrotem na bardziej ogólną reprezentację ;-)
suncoolsu 14.10.10
3
Poprosiłem o komentarz, ale eksperymentatorzy są nawet bardziej szaleni niż myślałem, jeśli to dla nich cukier syntaktyczny! Która wersja jest bardziej intuicyjna ... Test hipotez ANOVA na : czy stosunek wyjaśnionej wariancji do niewyjaśnionej wariancji jest wystarczająco wysoki? Test T na modelu regresji: czy efekt wystarczająco różni się od zera? A dzięki temu drugiemu sformułowaniu otrzymujesz również kierunek zmian. A jeśli trzeba było przekształcić dane, można przekształcić szacunkową wartość parametru w fizycznie znaczącą ilość. W przeciwieństwie do SS. β ββββ
f1r3br4nd

Odpowiedzi:

55

Jako ekonomista naucza się analizy wariancji (ANOVA) i zwykle rozumie ją w odniesieniu do regresji liniowej (np. W Kursie ekonometrii Arthura Goldbergera ). Ekonomiści / ekonometrycy zazwyczaj postrzegają ANOVA jako nieciekawy i wolą przejść prosto do modeli regresji. Z perspektywy modeli liniowych (a nawet uogólnionych modeli liniowych) ANOVA przypisuje współczynniki do partii, przy czym każda partia odpowiada „źródłu zmienności” w terminologii ANOVA.

Zasadniczo można odtworzyć wnioski uzyskane z analizy ANOVA przy użyciu regresji, ale nie zawsze regresji OLS. Modele wielopoziomowe są potrzebne do analizy hierarchicznych struktur danych, takich jak „projekty podzielonego wykresu”, w których efekty międzygrupowe są porównywane z błędami na poziomie grupy, a efekty wewnątrz grupy są porównywane z błędami na poziomie danych. Artykuł Gelmana [1] zawiera bardzo szczegółowe informacje na temat tego problemu i skutecznie dowodzi, że ANOVA jest ważnym narzędziem statystycznym, którego należy nadal uczyć dla samego siebie.

W szczególności Gelman twierdzi, że ANOVA jest sposobem zrozumienia i strukturyzacji modeli wielopoziomowych. Dlatego ANOVA nie jest alternatywą dla regresji, ale jako narzędzie do podsumowywania złożonych wnioskowania o wysokich wymiarach i do analizy danych eksploracyjnych.

Gelman jest szanowanym statystykiem i należy mu zaufać. Jednak prawie cała praca empiryczna, którą wykonuję, byłaby równie dobrze obsłużona przez regresję liniową, więc mocno wpadam w obóz postrzegania jej jako trochę bezcelowej. Niektóre dyscypliny ze złożonymi projektami badań (np. Psychologia) mogą uznać ANOVA za przydatne.

[1] Gelman, A. (2005). Analiza wariancji: dlaczego jest ważniejsza niż kiedykolwiek (w dyskusji). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048

Graham Cookson
źródło
1
Dzięki za referencje Gelmana. Przeczytam jego artykuł. Ale czy nie możemy analizować modeli wielopoziomowych przy użyciu klasycznego maksymalnego prawdopodobieństwa? Zgadzam się, że OLS jest nieefektywny / nieodpowiedni w przypadku modeli wielopoziomowych.
3
@Sikikant - istnieje wiele sposobów radzenia sobie z wielopoziomowymi danymi, a Gelman jest „królem” tej dziedziny. Chodzi mu o to, że ANOVA jest prostą / jasną metodą uchwycenia kluczowych cech złożonych i hierarchicznych struktur danych lub projektów badań, a ANOVA jest prostą / jasną metodą prezentacji kluczowych wyników. W tym sensie jego rola jest komplementarna lub eksploracyjna.
Graham Cookson,
1
+1 za miłą, jasną odpowiedź. Ustęp 3 jest zasadniczo tym, czego nauczono mnie jako licencjata z biologii, z naciskiem na łatwość łączenia ciągłych i kategorycznych zmiennych niezależnych w ramach analizy ANOVA.
Freya Harrison
23

Myślę, że drugi akapit Grahama stanowi sedno sprawy. Podejrzewam, że nie jest to tak techniczne, jak historyczne, prawdopodobnie ze względu na wpływ „ metod statystycznych dla pracowników naukowych ” oraz łatwość nauczania / stosowania narzędzia dla niestatystów w analizie eksperymentalnej z udziałem czynników dyskretnych, zamiast zagłębiania się w budowę modelu i powiązane narzędzia. W statystykach ANOVA jest zwykle nauczana jako szczególny przypadek regresji. (Myślę, że jest to podobne do tego, dlaczego biostatystyka jest wypełniona niezliczonymi tytułowymi „testami”, zamiast podkreślać budowanie modeli.)

ars
źródło
14

Powiedziałbym, że niektórzy z was używają terminu regresja, kiedy powinniście używać ogólnego modelu liniowego. Myślę o regresji jako o glm, która obejmuje ciągłe zmienne towarzyszące. Gdy ciągłe zmienne towarzyszące są łączone ze zmiennymi obojętnymi, które należy nazwać analizą kowariancji. Jeśli używane są tylko zmienne obojętne, tę specjalną formę glm nazywamy analizą wariancji. Myślę, że analiza wariancji ma wyraźne drugie znaczenie, ponieważ procedura testowania znaczących współczynników w glm przy użyciu rozkładu wariancji na składowe składników modelu i składowe błędu.

Michael Chernick
źródło
2
(+1) Od razu zauważyłem również niejednoznaczną terminologię „regresję” w trakcie dyskusji.
Stéphane Laurent,
1
(+1) GLM może być najlepszym sposobem rozplątywania różnych znaczeń. Należy również zauważyć, że w historii ANOVA zastosowano procedury obliczeniowe, które przesłaniają relacje między OLS a ANOVA. Nomenklatura może zatem być uzasadniona względami historycznymi.
Jan
10

ANOVA może być używana z jakościowymi zmiennymi objaśniającymi (czynnikami), które przyjmują więcej niż 2 wartości (poziomy) i daje podstawowy test, że średnia odpowiedź jest taka sama dla każdej wartości. Pozwala to uniknąć problemu regresji podczas przeprowadzania wielu testów t między parami między tymi poziomami:

  • Wiele testów t na stałym poziomie istotności 5% sprawiłoby, że około 5% z nich dałoby błędne wyniki.
  • Te testy nie są od siebie niezależne. Porównanie poziomów A z B wiąże się z porównaniem A z C, ponieważ dane A są wykorzystywane w obu testach.

Lepiej jest używać kontrastów dla różnych kombinacji poziomów poziomów, które chcesz przetestować.

Ηλίας
źródło
1
Możesz wyjaśnić tę odpowiedź; jak napisano, widzę 3 problemy. Pierwsze 2 są nieco wybredne, ale nadal powinny być edytowane, trzecie jest istotne w kontekście tej dyskusji. (1) ANOVA może być używana tylko z 2 grupami (chociaż wtedy większość ludzi po prostu przeprowadza test t). (2) wielokrotne testy t w / przyniosą asymptotycznie błędy typu I dla 5% kontrastów, w których nie ma rzeczywistej różnicy ; ile błędów wystąpi, zależy od tego, ile prawdziwych jest wartości null. α=.05
gung
7
(3) twoja odpowiedź sugeruje, że problem wielokrotnych porównań dotyczy regresji OLS, czego nie robi, gdy jest właściwie przeprowadzany. Właściwym sposobem przetestowania czynnika w kontekście regresji jest przetestowanie modelu zagnieżdżonego ze wszystkimi manekinami zrzuconymi względem pełnego modelu z uwzględnieniem wszystkich manekinów z czynnikiem. Ten test jest identyczny z tym, który przeprowadza ANOVA. Prawdą jest, że nie powinieneś używać testów poszczególnych zmiennych fikcyjnych (podejrzewam, że to właśnie próbujesz tutaj opisać).
gung
3

ANOVA testujesz, czy istnieją znaczące różnice między średnimi populacji, zakładając, że porównujesz więcej niż dwa średnie populacji, wtedy zamierzasz zastosować test F.

W analizie regresji budujesz model między zmiennymi niezależnymi a zmienną zależną. Jeśli masz jedną zmienną niezależną z czterema poziomami, możesz użyć trzech zmiennych zastępczych i uruchomić model regresji. Test F dla modelu regresji, który jest używany do testowania istotności modelu regresji, jest taki sam jak F, który otrzymujesz, gdy testujesz różnicę między średnimi populacji. Jeśli uruchomisz regresję krokową, niektóre zmienne fikcyjne mogą zostać usunięte z modelu, a twoja wartość F będzie się różnić od tej podczas wykonywania testu ANOVA.

Jamal
źródło
5
To sprawia, że ​​ANOVA jest procedurą testową, a regresja jest procedurą modelowania, w której można przeprowadzać testy. Ale ANOVA ma również podstawowy model, niezależnie od tego, czy jest to podkreślane we wszystkich wstępnych terapiach. Tak więc ta odpowiedź nie uwzględnia żadnej różnicy między nimi. Pytanie to również nie jest poruszane, dlatego uczy się ich jako różnych bez względu na silne podobieństwa.
Nick Cox,