ANOVA jest równoważna regresji liniowej z użyciem odpowiednich zmiennych fikcyjnych. Wnioski pozostają takie same, niezależnie od tego, czy używasz ANOVA czy regresji liniowej.
Czy w świetle ich równoważności istnieje jakikolwiek powód, dla którego stosuje się ANOVA zamiast regresji liniowej?
Uwaga: Jestem szczególnie zainteresowany słyszeniem o technicznych przyczynach zastosowania ANOVA zamiast regresji liniowej.
Edytować
Oto jeden przykład użycia jednokierunkowej ANOVA. Załóżmy, że chcesz wiedzieć, czy średni wzrost mężczyzn i kobiet jest taki sam. Aby przetestować swoją hipotezę, należy zebrać dane z losowej próbki mężczyzn i kobiet (powiedzmy po 30) i przeprowadzić analizę ANOVA (tj. Sumę kwadratów dla płci i błędu), aby zdecydować, czy występuje efekt.
Możesz również użyć regresji liniowej do przetestowania tego w następujący sposób:
Zdefiniuj: jeśli respondent jest mężczyzną, a przeciwnym razie. gdzie:0 Wysokość = Przechwyć + β ∗ Płeć + błąd błędu ∼ N ( 0 , σ 2 )
Następnie test, czy jest równoważnym testem dla twojej hipotezy.
źródło
Odpowiedzi:
Jako ekonomista naucza się analizy wariancji (ANOVA) i zwykle rozumie ją w odniesieniu do regresji liniowej (np. W Kursie ekonometrii Arthura Goldbergera ). Ekonomiści / ekonometrycy zazwyczaj postrzegają ANOVA jako nieciekawy i wolą przejść prosto do modeli regresji. Z perspektywy modeli liniowych (a nawet uogólnionych modeli liniowych) ANOVA przypisuje współczynniki do partii, przy czym każda partia odpowiada „źródłu zmienności” w terminologii ANOVA.
Zasadniczo można odtworzyć wnioski uzyskane z analizy ANOVA przy użyciu regresji, ale nie zawsze regresji OLS. Modele wielopoziomowe są potrzebne do analizy hierarchicznych struktur danych, takich jak „projekty podzielonego wykresu”, w których efekty międzygrupowe są porównywane z błędami na poziomie grupy, a efekty wewnątrz grupy są porównywane z błędami na poziomie danych. Artykuł Gelmana [1] zawiera bardzo szczegółowe informacje na temat tego problemu i skutecznie dowodzi, że ANOVA jest ważnym narzędziem statystycznym, którego należy nadal uczyć dla samego siebie.
W szczególności Gelman twierdzi, że ANOVA jest sposobem zrozumienia i strukturyzacji modeli wielopoziomowych. Dlatego ANOVA nie jest alternatywą dla regresji, ale jako narzędzie do podsumowywania złożonych wnioskowania o wysokich wymiarach i do analizy danych eksploracyjnych.
Gelman jest szanowanym statystykiem i należy mu zaufać. Jednak prawie cała praca empiryczna, którą wykonuję, byłaby równie dobrze obsłużona przez regresję liniową, więc mocno wpadam w obóz postrzegania jej jako trochę bezcelowej. Niektóre dyscypliny ze złożonymi projektami badań (np. Psychologia) mogą uznać ANOVA za przydatne.
[1] Gelman, A. (2005). Analiza wariancji: dlaczego jest ważniejsza niż kiedykolwiek (w dyskusji). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048
źródło
Myślę, że drugi akapit Grahama stanowi sedno sprawy. Podejrzewam, że nie jest to tak techniczne, jak historyczne, prawdopodobnie ze względu na wpływ „ metod statystycznych dla pracowników naukowych ” oraz łatwość nauczania / stosowania narzędzia dla niestatystów w analizie eksperymentalnej z udziałem czynników dyskretnych, zamiast zagłębiania się w budowę modelu i powiązane narzędzia. W statystykach ANOVA jest zwykle nauczana jako szczególny przypadek regresji. (Myślę, że jest to podobne do tego, dlaczego biostatystyka jest wypełniona niezliczonymi tytułowymi „testami”, zamiast podkreślać budowanie modeli.)
źródło
Powiedziałbym, że niektórzy z was używają terminu regresja, kiedy powinniście używać ogólnego modelu liniowego. Myślę o regresji jako o glm, która obejmuje ciągłe zmienne towarzyszące. Gdy ciągłe zmienne towarzyszące są łączone ze zmiennymi obojętnymi, które należy nazwać analizą kowariancji. Jeśli używane są tylko zmienne obojętne, tę specjalną formę glm nazywamy analizą wariancji. Myślę, że analiza wariancji ma wyraźne drugie znaczenie, ponieważ procedura testowania znaczących współczynników w glm przy użyciu rozkładu wariancji na składowe składników modelu i składowe błędu.
źródło
ANOVA może być używana z jakościowymi zmiennymi objaśniającymi (czynnikami), które przyjmują więcej niż 2 wartości (poziomy) i daje podstawowy test, że średnia odpowiedź jest taka sama dla każdej wartości. Pozwala to uniknąć problemu regresji podczas przeprowadzania wielu testów t między parami między tymi poziomami:
Lepiej jest używać kontrastów dla różnych kombinacji poziomów poziomów, które chcesz przetestować.
źródło
ANOVA testujesz, czy istnieją znaczące różnice między średnimi populacji, zakładając, że porównujesz więcej niż dwa średnie populacji, wtedy zamierzasz zastosować test F.
W analizie regresji budujesz model między zmiennymi niezależnymi a zmienną zależną. Jeśli masz jedną zmienną niezależną z czterema poziomami, możesz użyć trzech zmiennych zastępczych i uruchomić model regresji. Test F dla modelu regresji, który jest używany do testowania istotności modelu regresji, jest taki sam jak F, który otrzymujesz, gdy testujesz różnicę między średnimi populacji. Jeśli uruchomisz regresję krokową, niektóre zmienne fikcyjne mogą zostać usunięte z modelu, a twoja wartość F będzie się różnić od tej podczas wykonywania testu ANOVA.
źródło