Jaki jest związek między ANOVA w celu porównania średnich z kilku grup a ANOVA w celu porównania modeli zagnieżdżonych?

12

Do tej pory widziałem ANOVA używaną na dwa sposoby:

Po pierwsze , w moim tekście statystyki wprowadzającej ANOVA została wprowadzona jako sposób porównania średnich z trzech lub więcej grup, jako ulepszenie w porównaniu z parami, w celu ustalenia, czy jeden ze średnich ma statystycznie istotną różnicę.

Po drugie , w moim tekście do nauki statystycznej widziałem, że ANOVA porównywała dwa (lub więcej) zagnieżdżone modele w celu ustalenia, czy Model 1, który wykorzystuje podzbiór predyktorów Modelu 2, pasuje równie dobrze do danych, czy też pełny Model 2 jest lepszy.

Teraz zakładam, że w ten czy inny sposób te dwie rzeczy są bardzo do siebie podobne, ponieważ obie używają testu ANOVA, ale na pozór wydają mi się zupełnie inne. Po pierwsze, w pierwszym zastosowaniu porównuje się trzy lub więcej grup, a w drugiej metodzie można porównać tylko dwa modele. Czy ktoś mógłby wyjaśnić związek między tymi dwoma zastosowaniami?

Austin
źródło
3
Krótko mówiąc, myślę, że druga „anova” wcale nie jest ANOVA (jeśli czytasz en.wikipedia.org/wiki/Analiza_wariancji , nie zobaczysz żadnej wzmianki o porównaniu modeli zagnieżdżonych). Jest to en.wikipedia.org/wiki/F-test i jest zaimplementowane w R jako anova()funkcja, ponieważ pierwsza, prawdziwa ANOVA również używa testu F. Prowadzi to do nieporozumień terminologicznych.
ameba
Dzięki, myślę, że trafiłeś w sedno! Nie pomyślałem, że ta anova()funkcja może zrobić coś więcej niż tylko ANOVA. Ten post potwierdza twój wniosek: stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
Austin
1
Statystyk gradu nauczył mnie, że ANOVA jako test wielopróbkowy jest tym samym co ANOVA jako test supremacji modelu zagnieżdżonego. To samo oznacza, o ile rozumiem, że porównujemy sumę (lub średnią) reszt powstałych z braku modelu lub prostszego modelu z resztami powstałymi z modelu, a test F ma zastosowanie do obu sytuacji, biorąc pod uwagę, że założenia są spełnione. Odpowiedź, której próbowałem, dotyczy właśnie tego. Byłbym zainteresowany zrozumieniem związku między co najmniej jednym współczynnikiem lm różnym od zera (statystyki F dla jednego modelu) a sumą reszt.
Aleksiej Burnakow,

Odpowiedzi:

11

W moim rozumieniu abstrakcyjna intuicja ANOVA jest następująca: rozkłada się źródła wariancji obserwowanej zmiennej w różnych kierunkach i bada odpowiedni wkład. Mówiąc ściślej, rozkłada się mapę tożsamości na sumę projekcji i bada, które projekcje / kierunki wnoszą istotny wkład w wyjaśnianie wariancji, a które nie. Podstawą teoretyczną jest twierdzenie Cochrana .

Aby być mniej abstrakcyjnym, wrzuciłem drugą formę wspomnianą przez PO do właśnie opisanych ram. Następnie interpretuję pierwszą formę jako szczególny przypadek drugiej.

Rozważmy model regresji ze zmiennymi objaśniającymi (pełny model) i porównajmy go z modelem ograniczonym ze zmiennymi . WLOG, ostatnie zmienne pełnego modelu nie są uwzględnione w modelu ograniczonym. Pytanie udzielone przez ANOVA brzmi:K - J JKKJJ

„Czy możemy wyjaśnić znacznie większą wariancję w obserwowanej zmiennej, jeśli uwzględnimy dodatkowych zmiennychJ ?

Odpowiedź na to pytanie polega na porównaniu wkładu wariancji pierwszych zmiennych , następnych zmiennych oraz pozostałej / niewyjaśnionej części (rezydualna suma kwadratów). Ten rozkład (uzyskany np. Z twierdzenia Cochrana) służy do konstruowania testu F. Zatem analizuje się redukcję (poprzez włączenie większej liczby zmiennych) w rezydualnej sumie kwadratów modelu ograniczonego (odpowiadającej wszystkie współczynniki odnoszące się do ostatnich zmiennych są zerowe ) przez uwzględnienie większej liczby zmiennych i uzyskanie statystyki F Jeśli wartość jest wystarczająco duża, wówczas wariancja wyjaśniona przez dodatkoweJ H 0 : J R S S r e s t r - R S S f u l lKJJH0: J J

RSSrestrRSSfullJRSSfullNK
J zmienne są znaczące.

Teraz pierwsza forma wspomniana przez PO jest interpretowana jako szczególny przypadek drugiej formy . Rozważmy trzy grupy A, B i C ze środkami , i . jest badany przez porównanie zmienność tłumaczy regresji na przecięcia (Ograniczony modelu) o wariancji wytłumaczyć modelu pełnego zawierający osią, obojętne dla grupy A, oraz obojętne dla grupy B. Wynikowa statystyka F jest równoważne ANOVA- test na Wikipediiμ B μ C H 0 : μ A = μ B = μ C R S S i n t e r c e p t - R S S d u m m i e sμAμBμCH0:μA=μB=μC

RSSinterceptRSSdummies2RSSdummiesN3
. Mianownik jest równy wariacji wewnątrz grup, licznik jest równy wariacji między grupami. Jeśli różnica między grupami jest większa niż różnica w obrębie grup, odrzuca się hipotezę, że wszystkie średnie są równe.
bmbb
źródło
+1. Zastanawiam się, czy zgodziłbyś się z moją uwagą na temat terminologii w komentarzu tutaj: stats.stackexchange.com/questions/315979/#comment602611_315979 .
ameba
Zdecydowanie zgadzam się, że w terminologii jest wiele nieporozumień ;-). Kolokwialnie kojarzę ANOVA tylko z pierwszą formą OP. Właśnie obejrzałem książkę Scheffé „Analiza wariancji”, w której wspomniano o „projektach zagnieżdżonych”.
bmbb
@bmbb, dodam do twojego ostatniego komentarza to: prosty przypadek, w którym porównujemy zagnieżdżone modele lm, z których jeden jest tylko przechwytywaniem. Fakt, który uderzył mnie o model z przecinaniem, polega na tym, że kiedy odnosimy się do jego reszt, to rzeczywiście odnosimy się do jego wariancji, ponieważ reszty są obliczane względem zmiennej zmiennej (która jest przecinaniem modelu) i są one odchyleniami od średnia próbki. Dlatego nadal przeprowadzamy analizę wariancji w przypadku modeli zagnieżdżonych, nawet jeśli formalnie analizujemy resztki.
Aleksiej Burnakow,
6

Jeśli wykonujesz jednokierunkową analizę ANOVA, aby sprawdzić, czy istnieje znacząca różnica między grupami, to domyślnie porównujesz dwa modele zagnieżdżone (więc istnieje tylko jeden poziom zagnieżdżenia, ale nadal jest zagnieżdżany).

Te dwa modele to:

  • Model 0: Wartości (gdzie to numer próbki, a to numer grupy) są modelowane przez oszacowaną średnią całej próbki. yijijβ^0
    yij=β^0+ϵi
  • Model 1: Wartości są modelowane za pomocą oszacowanych średnich grup.

    (a jeśli reprezentujemy model między odmianami grup, , wówczas model 0 jest zagnieżdżony w modelu 1)βj^

    yi=β^0+β^j+ϵi

Przykład porównania średnich i równoważności z modelami zagnieżdżonymi: weźmy długość sepal (cm) ze zbioru danych tęczówki (jeśli użyjemy wszystkich czterech zmiennych, moglibyśmy faktycznie wykonywać LDA lub MANOVA tak jak Fisher w 1936 r.)

Obserwowane średnie całkowite i grupowe to:

μtotal=5.83μsetosa=5.01μversicolor=5.94μvirginica=6.59

Który jest w formie modelu:

model 1: yij=5.83+ϵimodel 2: yij=5.01+[00.931.58]j+ϵi

we wzorze 1 oznacza sumy kwadratów .ϵja2)=102,1663

we wzorze 2 oznacza w grupie sumy kwadratów .ϵja2)=38,9562

Tabela ANOVA będzie podobna (i domyślnie obliczy różnicę, która jest między sumą kwadratów grupy, która wynosi 63,212 w tabeli o 2 stopniach swobody):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

z

fa=RS.S.rejafafamirmindomirefarejafafamirmindomiRS.S.nmiwrefanmiw=63,2122)38,956147=119,26

zestaw danych użyty w przykładzie:

długość płatka (cm) dla trzech różnych gatunków kwiatów tęczówki

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9
Sextus Empiricus
źródło
1
+1, ale formatowanie tabeli danych jako tabeli lateksowej jest naprawdę złą praktyką !! Nigdzie nie można go skopiować i wkleić! Jeśli naprawdę chcesz dołączyć dane, dlaczego nie sformatować ich jako bloku kodu? Ale w tym przypadku możesz również link do artykułu z Wikipedii Fisher Iris, który zawiera dane.
ameba
Poza tym, co sądzisz o kwestii terminologicznej, o której wspomniałem w tym komentarzu stats.stackexchange.com/questions/315979/#comment602611_315979 ?
ameba
1
Nie wierzę, że niewyraźna terminologia jest dużym problemem. Moim zdaniem tak naprawdę nigdy nie traktuję ANOVA jako porównania wariancji w obrębie grup i między nimi i zawsze dokonuję projekcji mentalnej na porównanie dwóch modeli. Nie wierzę, że jest to duży problem, ponieważ rozkład f, stosunek dwóch niezależnych zmiennych rozproszonych chi-kwadrat, jest w pewnym sensie stosunkiem zmian. Zastosowanie testu f do badania modeli zagnieżdżonych jest swego rodzaju porównywaniem wariantów, analizowaniem wariantów, stąd ANOVA wydaje mi się w porządku (obecnie próbuję znaleźć jakieś odniesienia historyczne).
Sextus Empiricus,
Nie twierdzę, że to problem. Zastanawiam się jednak, czy termin „ANOVA” odnosi się do testu F porównującego modele zagnieżdżone tylko w R (jak zasugerowałem w moim powiązanym komentarzu), czy też jest to szersza akceptowana terminologia. Nie sprawdzałem podręczników, więc moje dowody pochodzą tylko z Wikipedii.
ameba
W Fisher's Methods for Research Workers z 1925 r., Kiedy wyjaśnia „analizę wariancji”, zawiera przykłady, które stosują tę technikę do linii regresji (ale nie ma modeli zagnieżdżonych).
Sextus Empiricus,
1

Zastosowanie ANOVA w porównaniu z kilkoma modelami oznacza sprawdzenie, czy przynajmniej jeden ze współczynników zastosowanych w modelu wyższego rzędu (i nieobecny w modelu o niższym rzędzie) różni się znacząco od zera.

Odpowiada to stwierdzeniu, że suma reszt dla modelu wyższego rzędu jest znacznie mniejsza niż suma modelu niższego rzędu.

Chodzi o dwa modele, ponieważ zastosowano podstawowe równanie

MSM/MSE

Gdzie MSM jest średnią kwadratów reszt z modelu niższego rzędu (gdzie najniższym rzędem jest średnia zmiennej docelowej, tj. Przecięcie).

( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )

Możesz przeczytać podobne tematy na CV, takie jak

Jak korzystać z anova do porównywania dwóch modeli?

Aleksiej Burnakow
źródło
IMHO to nie odpowiada na pytanie.
ameba,
1

Z tego, czego się nauczyłem,

Możesz użyć tabel ANOVA, aby ustalić, czy twoje zmienne objaśniające rzeczywiście mają znaczący wpływ na zmienną odpowiedzi, a tym samym pasują do odpowiedniego modelu.

x1x2)x2)

y=β0+β1x1+β2)x2)+ϵ
y=β0+β1x1+ϵ

x1

Oto przykład wyjścia ANOVA dla projektu, nad którym pracuję w R, w którym testuję dwa modele (jeden z Dniami zmiennymi, a drugi bez Dni zmiennych):

wprowadź opis zdjęcia tutaj

Jak widać, odpowiadająca wartość p z testu F wynosi 0,13, czyli więcej niż 0,05. Dlatego nie możemy odrzucić hipotezy zerowej, że dni nie mają wpływu na Y. Wybieram model 1 zamiast modelu 2.

JPMSpoof
źródło
IMHO to nie odpowiada na pytanie.
ameba,