Dlaczego założenia ANOVA (równość wariancji, normalność reszt) mają znaczenie?

15

Podczas przeprowadzania analizy ANOVA powiedziano nam, że muszą istnieć pewne założenia testu, aby można ją było zastosować do danych. Nigdy nie zrozumiałem powodu, dla którego następujące założenia były niezbędne do funkcjonowania testu:

  1. Wariancja zmiennej zależnej (reszty) powinna być równa w każdej komórce projektu

  2. Zmienna zależna (reszty) powinna być w przybliżeniu normalnie rozłożona dla każdej komórki projektu

Rozumiem, że istnieje nieco szara strefa, czy te założenia należy spełnić, ale dla argumentu, jeśli te założenia nie zostałyby całkowicie spełnione w danym zestawie danych, jaki byłby problem z użyciem ANOVA ?

PaperRockBazooka
źródło
jaki jest cel twojego badania?
Subhash C. Davar

Odpowiedzi:

8

Założenia mają znaczenie, o ile wpływają na właściwości testów hipotez (i przedziały), których można użyć, których właściwości dystrybucyjne poniżej wartości zerowej są obliczane na podstawie tych założeń.

W szczególności, w przypadku testów hipotez, powinniśmy się martwić, jak daleko może być prawdziwy poziom istotności od tego, co chcemy, i czy moc przeciw alternatywnym interesom jest dobra.

W związku z założeniami, o które pytasz:

1. Równość wariancji

Wariancja zmiennej zależnej (reszty) powinna być równa w każdej komórce projektu

Może to z pewnością wpłynąć na poziom istotności, przynajmniej wtedy, gdy wielkość próby jest nierówna.

(Edytuj :) Statystyka F ANOVA to stosunek dwóch oszacowań wariancji (podział i porównanie wariancji jest dlatego nazywane analizą wariancji). Mianownik jest oszacowaniem rzekomo powszechnej wariancji błędu dla wszystkich komórek (obliczonej na podstawie reszt), podczas gdy licznik, oparty na zmienności średnich grupowych, będzie miał dwa składniki, jeden ze zmian średnich średnich populacji i jeden z powodu wariancji błędu. Jeśli wartość null jest prawdziwa, dwie szacowane wariancje będą takie same (dwie oceny częstej wariancji błędu); ta wspólna, ale nieznana wartość anuluje (ponieważ przyjęliśmy współczynnik), pozostawiając statystykę F, która zależy tylko od rozkładów błędów (które przy założeniu, że możemy pokazać, ma rozkład F. (Podobne komentarze dotyczą t- test użyłem do ilustracji.)

[Jest trochę więcej szczegółów na temat niektórych z tych informacji w mojej odpowiedzi tutaj ]

Jednak tutaj dwie wariancje populacji różnią się między dwiema próbkami o różnej wielkości. Rozważ mianownik (statystyki F w ANOVA i statystyki t w teście t) - składa się on z dwóch różnych oszacowań wariancji, a nie jednego, więc nie będzie miał rozkładu „właściwego” (przeskalowane chi -square dla F i jego pierwiastek kwadratowy w przypadku at - zarówno kształt, jak i skala są problemami).

W rezultacie statystyka F lub statystyka t nie będzie już miała rozkładu F lub t, ale sposób, w jaki ma to wpływ, jest różny w zależności od tego, czy duża czy mniejsza próbka została pobrana z populacji z większa wariancja. To z kolei wpływa na rozkład wartości p.

Poniżej wartości zerowej (tzn. Gdy średnie populacji są równe), rozkład wartości p powinien być równomiernie rozłożony. Jeśli jednak wariancje i rozmiary próbek są nierówne, ale średnie są równe (więc nie chcemy odrzucać wartości zerowej), wartości p nie są równomiernie rozłożone. Zrobiłem małą symulację, aby pokazać, co się dzieje. W tym przypadku użyłem tylko 2 grup, więc ANOVA odpowiada testowi t dla dwóch próbek przy założeniu równej wariancji. Symulowałem więc próbki z dwóch rozkładów normalnych, jeden ze standardowym odchyleniem dziesięć razy większy niż drugi, ale równy.

W przypadku wykresu po lewej stronie większe odchylenie standardowe ( populacja ) było dla n = 5, a mniejsze odchylenie standardowe było dla n = 30. W przypadku wykresu po prawej stronie większe odchylenie standardowe poszło z n = 30, a mniejsze z n = 5. Symulowałem każdy 10000 razy i za każdym razem znajdowałem wartość p. W każdym przypadku chcesz, aby histogram był całkowicie płaski (prostokątny), ponieważ oznacza to, że wszystkie testy przeprowadzane na pewnym poziomie istotności faktycznie uzyskują poziom błędu tego typu I. W szczególności najważniejsze jest, aby najbardziej wysunięte w lewo części histogramu pozostały blisko szarej linii:α

Histogramy wartości p dla próbek symulowanych

Jak widzimy, wykres po lewej stronie (większa wariancja w mniejszej próbce) wartości p wydają się być bardzo małe - bardzo często odrzucalibyśmy hipotezę zerową (prawie połowa czasu w tym przykładzie), nawet jeśli zerowa jest prawdziwa . Oznacza to, że nasze poziomy istotności są znacznie większe niż wymagaliśmy. Na wykresie po prawej stronie widzimy, że wartości p są przeważnie duże (a zatem nasz poziom istotności jest znacznie mniejszy niż wymagaliśmy) - w rzeczywistości ani razu na dziesięć tysięcy symulacji nie odrzuciliśmy na poziomie 5% (najmniejszym Wartość p wynosiła tutaj 0,055). [Może to nie brzmieć tak źle, dopóki nie przypomnimy sobie, że będziemy mieć bardzo niską moc, aby iść z naszym bardzo niskim poziomem istotności.]

To dość konsekwencja. Dlatego dobrym pomysłem jest zastosowanie testu t typu Welch-Satterthwaite lub ANOVA, gdy nie mamy uzasadnionego powodu, aby zakładać, że wariancje będą bliskie równości - w porównaniu z tymi sytuacjami prawie nie ma to wpływu (I zasymulował również ten przypadek; dwa rozkłady symulowanych wartości p - których tutaj nie pokazałem - były dość bliskie).

2. Warunkowe rozmieszczenie odpowiedzi (DV)

Zmienna zależna (reszty) powinna być w przybliżeniu normalnie rozłożona dla każdej komórki projektu

Jest to nieco mniej bezpośrednio krytyczne - w przypadku umiarkowanych odchyleń od normalności poziom istotności nie ma tak dużego wpływu na większe próbki (choć moc może być!).

Oto jeden przykład, w którym wartości są rozkładane wykładniczo (z identycznymi rozkładami i wielkościami próbek), gdzie widzimy, że ten problem poziomu istotności jest znaczny przy małym ale zmniejsza się przy dużym .nn

histogramy wartości p, gdy H0 jest prawdą, ale rozkłady w każdej grupie są wykładnicze

Widzimy, że przy n = 5 jest znacznie za mało małych wartości p (poziom istotności dla testu 5% byłby o połowę mniejszy niż powinien), ale przy n = 50 problem jest zmniejszony - o 5% test w tym przypadku prawdziwy poziom istotności wynosi około 4,5%.

Możemy więc pokusić się o powiedzenie „cóż, w porządku, jeśli n jest wystarczająco duże, aby poziom istotności był dość bliski”, ale możemy również rzucać sporo mocy. W szczególności wiadomo, że asymptotyczna sprawność względna testu t względem powszechnie stosowanych alternatyw może wynosić 0. Oznacza to, że lepsze wybory w teście mogą uzyskać tę samą moc przy znikomym ułamku wielkości próbki wymaganej do uzyskania test t. Nie potrzebujesz niczego niezwykłego, aby dalej potrzebować więcej niż powiedzieć dwa razy więcej danych, aby mieć taką samą moc z t, jak byś potrzebował w alternatywnym teście - średnio cięższym - niż normalne ogony w rozkładzie populacji do tego wystarczą umiarkowanie duże próbki.

(Inne opcje dystrybucji mogą sprawić, że poziom istotności będzie wyższy niż powinien lub znacznie niższy niż tutaj.)

Glen_b - Przywróć Monikę
źródło
Dzięki Glen za szczegółową odpowiedź. Zastanawiam się, dlaczego błędy, które opisałeś, wystąpiłyby, gdyby założenia nie zostały spełnione. Jeśli chodzi o równość wariancji, czy mam rację, biorąc pod uwagę twoje pismo: Problem związany z posiadaniem mniejszej grupy liczebnej próby o większa wariancja jest (podobnie jak liczba punktów danych ogólnie mała, tj. n = 5), że większa wariancja zaobserwowana w mniejszej próbce jest obliczana jako reprezentatywna dla wariancji na poziomie populacji.
PaperRockBazooka
(część 2) Zasadniczo jest to niesprawiedliwe porównanie między próbą reprezentatywną a próbką niedostatecznie reprezentatywną (mówiąc stosunkowo), co może prowadzić do błędu typu 1 z powodu sposobu przetwarzania ANOVA.
PaperRockBazooka
@Paper Nie sądzę, że o to tu chodzi. To nie jest reprezentatywność wariancji próbki w mniejszej próbce (np. Gdyby obie próbki były jednakowo małe, miałbyś dwa razy większy problem z reprezentatywnością, ale ten problem byłby nieobecny). Do mojej odpowiedzi dodałem kilka akapitów, aby wyjaśnić, w jaki sposób problem pojawia się bardziej szczegółowo.
Glen_b
4

W skrócie, ANOVA dodaje , wyrównuje i uśrednia pozostałości . Resztki informują o tym, jak dobrze twój model pasuje do danych. W tym przykładzie użyłem PlantGrowthzestawu danych w R:

Wyniki eksperymentu porównującego plony (mierzone suszą masą roślin) uzyskane w kontroli i dwóch różnych warunkach traktowania.

Ten pierwszy wykres pokazuje wielką średnią na wszystkich trzech poziomach leczenia:

wprowadź opis zdjęcia tutaj

Czerwone linie to reszty . Teraz, podnosząc do kwadratu i dodając długość tych pojedynczych linii, otrzymasz wartość, która mówi ci, jak dobrze średnia (nasz model) opisuje dane. Mała liczba oznacza, że ​​średnia dobrze opisuje twoje punkty danych, większa liczba oznacza, że ​​średnia nie opisuje twoich danych. Ta liczba nazywa się sumą kwadratów :

SStotal=(xix¯grand)2xix¯grand

Teraz robisz to samo dla pozostałości w trakcie leczenia ( Resztkowe Sumy Kwadratów , co jest również znane jako hałas na poziomach leczenia):

wprowadź opis zdjęcia tutaj

I formuła:

SSresiduals=(xikx¯k)2xikikx¯k

Na koniec musimy określić sygnał w danych, który jest znany jako Modelowe sumy kwadratów , które później zostaną użyte do obliczenia, czy środki leczenia różnią się od średniej średniej:

wprowadź opis zdjęcia tutaj

I formuła:

SSmodel=nk(x¯kx¯grand)2nknkx¯kx¯grand

Obecnie wadą sum kwadratów jest to, że stają się one większe wraz ze wzrostem wielkości próby. Aby wyrazić te sumy kwadratów w stosunku do liczby obserwacji w zbiorze danych, dzielimy je przez ich stopnie swobody, zamieniając je w wariancje. Tak więc po podniesieniu do kwadratu i dodaniu punktów danych uśredniasz je przy użyciu ich stopni swobody:

dftotal=(n1)

dfresidual=(nk)

dfmodel=(k1)

nk

Powoduje to otrzymanie średniej kwadratowej modelu i rezydualnej średniej kwadratowej (obie są wariancjami) lub stosunku sygnału do szumu, który jest znany jako wartość F:

MSmodel=SSmodeldfmodel

MSresidual=SSresidualdfresidual

F=MSmodelMSresidual

Wartość F opisuje stosunek sygnału do szumu lub to, czy środki leczenia różnią się od średniej średniej. Wartość F jest teraz używana do obliczania wartości p, a one decydują, czy co najmniej jeden ze środków leczenia będzie znacząco różny od średniej średniej, czy nie.

Teraz mam nadzieję, że zauważysz, że założenia są oparte na obliczeniach z resztkami i dlaczego są one ważne. Ponieważ dodając , kwadrat i uśredniając resztki, powinniśmy upewnić się, że zanim to zrobimy, dane w tych grupach leczenia zachowują się podobnie , w przeciwnym razie wartość F może być do pewnego stopnia tendencyjna, a wnioski wyciągnięte z tej wartości F mogą nie być poprawnym.

Edycja: Dodałem dwa akapity, aby bardziej szczegółowo odpowiedzieć na pytanie 2 i 1 PO .

Założenie o normalności : Średnia (lub oczekiwana wartość) jest często wykorzystywana w statystykach do opisania środka rozkładu, jednak nie jest ona zbyt solidna i łatwo oddziałuje na nią wartości odstające. Średnia to najprostszy model, jaki możemy dopasować do danych. Ponieważ w ANOVA używamy średniej do obliczania reszt i sum kwadratów (patrz wzory powyżej), dane powinny być z grubsza rozkładem normalnym (założenie normalności). Jeśli tak nie jest, średnia może nie być odpowiednim modelem dla danych, ponieważ nie dałaby nam poprawnej lokalizacji środka rozkładu próbki. Zamiast tego można na przykład użyć mediany (patrz procedury testowania nieparametrycznego).

Założenie o jednorodności wariancji : Później, gdy obliczamy średnie kwadraty (model i wartość resztkowa), sumujemy poszczególne sumy kwadratów z poziomów leczenia i uśredniamy je (patrz wzory powyżej). Łącząc i uśredniając, tracimy informacje o poszczególnych wariancjach poziomu leczenia i ich wkładzie w średnie kwadraty. Dlatego powinniśmy mieć mniej więcej taką samą wariancję między wszystkimi poziomami leczenia, aby udział w średnich kwadratach był podobny. Gdyby różnice między tymi poziomami leczenia były różne, wówczas otrzymane średnie kwadraty i wartość F byłyby tendencyjne i wpłynęłyby na obliczenia wartości p, czyniąc wnioski wyciągnięte z tych wartości p wątpliwe (patrz również komentarz @whuber i Odpowiedź @Glen_b).

Tak to widzę dla siebie. To może nie być w 100% dokładne (nie jestem statystykiem), ale pomaga mi zrozumieć, dlaczego spełnienie założeń ANOVA jest ważne.

Stefan
źródło
FFFFF
FF
Dzięki Stefan. Chcę sprawdzić, czy dobrze cię rozumiem. ANOVA zasadniczo tworzy wielką średnią ze wszystkich punktów danych zbioru i porównuje, jak daleko każda grupa różni się od tej wielkiej średniej, aby zrozumieć, czy jest między nimi istotna statystycznie różnica. Jeśli omawiane założenia nie zostaną spełnione, średnia wartość nie odzwierciedla bardzo porównywanych grup i prowadzi do trudności w porównaniu
PaperRockBazooka
@PaperRockBazooka W ANOVA porównujesz sygnał do szumu. Jeśli nie możesz wykryć sygnału, tj. Wpływu twojego leczenia na wynik, równie dobrze możesz wziąć wielki środek jako model do opisu danych. Używamy różnicy punktów danych do wielkiej średniej (SStotalSSresidualSSmodel) w celu ustalenia stosunku sygnału do szumu. Spróbuj ręcznie obliczyć prostą ANOVA jednokierunkową. To pomogło mi lepiej to zrozumieć.
Stefan
0

ANOVA to tylko metoda, oblicza test F na podstawie próbek i porównuje go z rozkładem F. Potrzebujesz pewnych założeń, aby zdecydować, co chcesz porównać i obliczyć wartości p.

Jeśli nie spełnisz tych założeń, możesz obliczyć inne rzeczy, ale nie będzie to ANOVA.

Najbardziej użytecznym rozkładem jest rozkład normalny (z powodu CLT), dlatego jest najczęściej używany. Jeśli Twoje dane nie są normalnie dystrybuowane, musisz przynajmniej wiedzieć, jaki jest ich rozkład, aby coś obliczyć.

Homoscedastyczność jest powszechnym założeniem również w analizie regresji, po prostu ułatwia to. Na początek potrzebujemy pewnych założeń.

Jeśli nie masz homoscedastyczności, możesz spróbować przekształcić swoje dane, aby to osiągnąć.

Test F ANOVA jest znany jako prawie optymalny w sensie minimalizacji błędów fałszywie ujemnych dla stałej częstotliwości błędów fałszywie dodatnich

skan
źródło
„ANOVA” odnosi się do procesu rozkładania sum kwadratów na składniki interpretowalne. Zatem niezależnie od założeń dystrybucyjnych ANOVA jest ANOVA.
whuber