Do tej pory widziałem ANOVA używaną na dwa sposoby:
Po pierwsze , w moim tekście statystyki wprowadzającej ANOVA została wprowadzona jako sposób porównania średnich z trzech lub więcej grup, jako ulepszenie w porównaniu z parami, w celu ustalenia, czy jeden ze średnich ma statystycznie istotną różnicę.
Po drugie , w moim tekście do nauki statystycznej widziałem, że ANOVA porównywała dwa (lub więcej) zagnieżdżone modele w celu ustalenia, czy Model 1, który wykorzystuje podzbiór predyktorów Modelu 2, pasuje równie dobrze do danych, czy też pełny Model 2 jest lepszy.
Teraz zakładam, że w ten czy inny sposób te dwie rzeczy są bardzo do siebie podobne, ponieważ obie używają testu ANOVA, ale na pozór wydają mi się zupełnie inne. Po pierwsze, w pierwszym zastosowaniu porównuje się trzy lub więcej grup, a w drugiej metodzie można porównać tylko dwa modele. Czy ktoś mógłby wyjaśnić związek między tymi dwoma zastosowaniami?
anova()
funkcja, ponieważ pierwsza, prawdziwa ANOVA również używa testu F. Prowadzi to do nieporozumień terminologicznych.anova()
funkcja może zrobić coś więcej niż tylko ANOVA. Ten post potwierdza twój wniosek: stackoverflow.com/questions/20128781/f-test-for-two-models-in-rOdpowiedzi:
W moim rozumieniu abstrakcyjna intuicja ANOVA jest następująca: rozkłada się źródła wariancji obserwowanej zmiennej w różnych kierunkach i bada odpowiedni wkład. Mówiąc ściślej, rozkłada się mapę tożsamości na sumę projekcji i bada, które projekcje / kierunki wnoszą istotny wkład w wyjaśnianie wariancji, a które nie. Podstawą teoretyczną jest twierdzenie Cochrana .
Aby być mniej abstrakcyjnym, wrzuciłem drugą formę wspomnianą przez PO do właśnie opisanych ram. Następnie interpretuję pierwszą formę jako szczególny przypadek drugiej.
Rozważmy model regresji ze zmiennymi objaśniającymi (pełny model) i porównajmy go z modelem ograniczonym ze zmiennymi . WLOG, ostatnie zmienne pełnego modelu nie są uwzględnione w modelu ograniczonym. Pytanie udzielone przez ANOVA brzmi:K - J JK. K.- J jot
„Czy możemy wyjaśnić znacznie większą wariancję w obserwowanej zmiennej, jeśli uwzględnimy dodatkowych zmiennychjot ? ”
Odpowiedź na to pytanie polega na porównaniu wkładu wariancji pierwszych zmiennych , następnych zmiennych oraz pozostałej / niewyjaśnionej części (rezydualna suma kwadratów). Ten rozkład (uzyskany np. Z twierdzenia Cochrana) służy do konstruowania testu F. Zatem analizuje się redukcję (poprzez włączenie większej liczby zmiennych) w rezydualnej sumie kwadratów modelu ograniczonego (odpowiadającej wszystkie współczynniki odnoszące się do ostatnich zmiennych są zerowe ) przez uwzględnienie większej liczby zmiennych i uzyskanie statystyki F Jeśli wartość jest wystarczająco duża, wówczas wariancja wyjaśniona przez dodatkoweJ H 0 : J R S S r e s t r - R S S f u l lK.- J jot H.0: jot J
Teraz pierwsza forma wspomniana przez PO jest interpretowana jako szczególny przypadek drugiej formy . Rozważmy trzy grupy A, B i C ze środkami , i . jest badany przez porównanie zmienność tłumaczy regresji na przecięcia (Ograniczony modelu) o wariancji wytłumaczyć modelu pełnego zawierający osią, obojętne dla grupy A, oraz obojętne dla grupy B. Wynikowa statystyka F jest równoważne ANOVA- test na Wikipediiμ B μ C H 0 : μ A = μ B = μ C R S S i n t e r c e p t - R S S d u m m i e sμZA μb μdo H.0: μZA= μb= μdo
źródło
Jeśli wykonujesz jednokierunkową analizę ANOVA, aby sprawdzić, czy istnieje znacząca różnica między grupami, to domyślnie porównujesz dwa modele zagnieżdżone (więc istnieje tylko jeden poziom zagnieżdżenia, ale nadal jest zagnieżdżany).
Te dwa modele to:
Model 1: Wartości są modelowane za pomocą oszacowanych średnich grup.
(a jeśli reprezentujemy model między odmianami grup, , wówczas model 0 jest zagnieżdżony w modelu 1)βjot^
Przykład porównania średnich i równoważności z modelami zagnieżdżonymi: weźmy długość sepal (cm) ze zbioru danych tęczówki (jeśli użyjemy wszystkich czterech zmiennych, moglibyśmy faktycznie wykonywać LDA lub MANOVA tak jak Fisher w 1936 r.)
Obserwowane średnie całkowite i grupowe to:
Który jest w formie modelu:
we wzorze 1 oznacza sumy kwadratów .∑ ϵ2)ja= 102,1663
we wzorze 2 oznacza w grupie sumy kwadratów .∑ ϵ2)ja= 38,9562
Tabela ANOVA będzie podobna (i domyślnie obliczy różnicę, która jest między sumą kwadratów grupy, która wynosi 63,212 w tabeli o 2 stopniach swobody):
z
zestaw danych użyty w przykładzie:
długość płatka (cm) dla trzech różnych gatunków kwiatów tęczówki
źródło
Zastosowanie ANOVA w porównaniu z kilkoma modelami oznacza sprawdzenie, czy przynajmniej jeden ze współczynników zastosowanych w modelu wyższego rzędu (i nieobecny w modelu o niższym rzędzie) różni się znacząco od zera.
Odpowiada to stwierdzeniu, że suma reszt dla modelu wyższego rzędu jest znacznie mniejsza niż suma modelu niższego rzędu.
Chodzi o dwa modele, ponieważ zastosowano podstawowe równanie
Gdzie MSM jest średnią kwadratów reszt z modelu niższego rzędu (gdzie najniższym rzędem jest średnia zmiennej docelowej, tj. Przecięcie).
( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )
Możesz przeczytać podobne tematy na CV, takie jak
Jak korzystać z anova do porównywania dwóch modeli?
źródło
Z tego, czego się nauczyłem,
Możesz użyć tabel ANOVA, aby ustalić, czy twoje zmienne objaśniające rzeczywiście mają znaczący wpływ na zmienną odpowiedzi, a tym samym pasują do odpowiedniego modelu.
Oto przykład wyjścia ANOVA dla projektu, nad którym pracuję w R, w którym testuję dwa modele (jeden z Dniami zmiennymi, a drugi bez Dni zmiennych):
Jak widać, odpowiadająca wartość p z testu F wynosi 0,13, czyli więcej niż 0,05. Dlatego nie możemy odrzucić hipotezy zerowej, że dni nie mają wpływu na Y. Wybieram model 1 zamiast modelu 2.
źródło