Założenie ANOVA normalność / rozkład normalny reszt

52

Strona Wikipedii na temat ANOVA wymienia trzy założenia , a mianowicie:

  • Niezależność przypadków - jest to założenie modelu upraszczającego analizę statystyczną.
  • Normalność - rozkłady reszt są normalne.
  • Równość (lub „jednorodność”) wariancji, zwana homoscedastycznością ...

Punkt zainteresowania jest tutaj drugim założeniem. Kilka źródeł wylicza założenie inaczej. Niektórzy mówią o normalności surowych danych, inni twierdzą, że są to resztki.

Pojawia się kilka pytań:

  • czy normalność i normalny rozkład reszt to ta sama osoba (na podstawie wpisu w Wikipedii twierdziłbym, że normalność jest własnością i nie dotyczy bezpośrednio reszt (ale może być właściwością reszt (głęboko zagnieżdżony tekst w nawiasach, dziwaczny)))?
  • jeśli nie, jakie założenie należy przyjąć? Jeden? Obie?
  • jeśli założenie o normalnie rozłożonych resztach jest słuszne, czy popełniamy poważny błąd, sprawdzając tylko histogram wartości surowych pod kątem normalności?
Roman Luštrik
źródło
Możesz praktycznie zignorować wszystko inne, co mówi, że jeśli twierdzą, że surowe dane muszą być normalnie dystrybuowane. A kto powiedział, że „my” zresztą sprawdzamy tylko surowe wartości za pomocą histogramów. Czy jesteś w jednej z tych klas Six Sigma?
DW
1
@Andy W: Właśnie dodałem link do odpowiedniej sekcji artykułu w Wikipedii na temat ANOVA.
onestop
@DWin: blog.markanthonylawson.com/?p=296 (przepraszam, zupełnie nie na temat, ale nie mogłem się oprzeć)
onestop
@onstop dziękuję. Poprosiłem o link tylko dlatego, że jestem leniwy i nie chciałem samodzielnie szukać ANOVA na wikipedii, nie dlatego, że jest to istotne dla pytania.
Andy W
Powiązane pytanie tutaj: co-jeśli-resztki-są-zwykle-dystrybuowane-ale-y-nie-jest .
gung - Przywróć Monikę

Odpowiedzi:

35

Załóżmy, że jest to model efektów stałych . (Rada tak naprawdę nie zmienia się w przypadku modeli z efektami losowymi, tylko trochę się komplikuje.)

  1. Nie, normalność i normalny rozkład resztek nie są takie same . Załóżmy, że zmierzyłeś plon z uprawy z aplikacją nawozu i bez. Na poletkach bez nawozu plon wahał się od 70 do 130. Na dwóch poletkach z nawozem plon wahał się od 470 do 530. Rozkład wyników jest bardzo nietypowy: jest skupiony w dwóch miejscach związanych z aplikacją nawozu. Załóżmy ponadto, że średnie wydajności wynoszą odpowiednio 100 i 500. Wtedy wszystkie wartości resztkowe mieszczą się w zakresie od -30 do +30. Mogą być (lub nie) normalnie dystrybuowane, ale oczywiście jest to zupełnie inna dystrybucja.

  2. Rozkład reszt ma znaczenie , ponieważ odzwierciedlają losową część modelu. Należy również zauważyć, że wartości p są obliczane ze statystyk F (lub t) i zależą one od reszt, a nie od wartości pierwotnych.

  3. Jeśli dane mają znaczący i ważny wpływ (jak w tym przykładzie), możesz popełnić „poważny” błąd . Możesz, na szczęście, dokonać właściwego ustalenia: to znaczy, patrząc na surowe dane, zobaczysz mieszankę dystrybucji, a to może wyglądać normalnie (lub nie). Chodzi o to, że to, czego szukasz, nie ma znaczenia.

Resztki ANOVA nie muszą być zbliżone do normalnych, aby pasowały do ​​modelu. Jednak prawie normalność reszt jest niezbędna, aby wartości p obliczone z rozkładu F były znaczące.

Whuber
źródło
6
Myślę, że należy dodać ważne punkty: w ANOVA normalność w każdej grupie (nie ogólna) jest równoważna normalności reszt.
Aniko
2
@Aniko Czy mógłbyś wyjaśnić, co rozumiesz przez „odpowiednik” w swoim komentarzu? Prawie tautologicznie jest, że normalność w grupie jest taka sama jak normalność reszt tej grupy, ale to nieprawda, że ​​normalność oddzielnie w każdej grupie implikuje (lub implikuje) normalność reszt.
whuber
7
Naprawdę miałem na myśli sens tautologiczny: jeśli grupy są normalne, to reszty są normalne. Odwrotna sytuacja jest prawdziwa tylko wtedy, gdy dodana zostanie homoscedascity (jak w ANOVA). Nie zamierzam opowiadać się za sprawdzaniem grup zamiast reszt, ale myślę, że jest to podstawowa przyczyna różnych sformułowań założeń.
Aniko
2
Zauważyłem, że ludzie wykonujący ANOVA zwykle wydają się zainteresowani obliczaniem wartości p, a zatem normalność reszt jest dla nich ważna. Czy istnieją jakieś wspólne powody, aby dopasować model ANOVA, jeśli nie jesteśmy zainteresowani obliczaniem wartości p z rozkładu F.? Przepraszamy, jeśli pytanie jest zbyt szerokie, aby można je było komentować.
user1205901 - Przywróć Monikę
3
@ user1205901 To bardzo dobra uwaga. Dwa typowe zastosowania ANOVA, które nie opierają się na teście F, to (1) jest to wygodny sposób na uzyskanie oszacowania efektu i (2) jest nieodłączną częścią składowych obliczania wariancji.
whuber
8

Standardowa klasyczna jednokierunkowa ANOVA może być postrzegana jako rozszerzenie klasycznego „testu T z 2 próbkami” do „testu T z n próbkami”. Można to zaobserwować porównując jednokierunkową ANOVA z tylko dwiema grupami z klasycznym 2-próbnym testem T.

Myślę, że mylisz się, że (zgodnie z założeniami modelu) reszty i surowe dane są ZARÓWNO normalnie rozłożone. Jednak surowe dane składają się z normalnych rozkładów na różne sposoby (chyba że wszystkie efekty są dokładnie takie same), ale z tą samą wariancją. Z drugiej strony reszty mają ten sam rozkład normalny . Wynika to z trzeciego założenia homoscedastyczności.

Yijμjσ2Yij=μj+σϵijϵij

ϵij

Yij

prawdopodobieństwo prawdopodobieństwa
źródło
1
+1 za wskazanie (w ostatnim akapicie) założenia homoscedastyczności.
whuber
Czy to oznacza, że ​​jeśli pozwolimy powiedzieć n grupom zależnym do porównania, musimy sprawdzić ich reszty osobno (co daje n grup reszt)?
stan
5

pnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2

SSw=j=1pi=1nj(yijMj)2

FFSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)MjY=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

H0Myi(j)MjMMj

karakal
źródło
2
SSχ2Mj=MjyijMjMjM
@onstop Edytowane w celu odzwierciedlenia twoich wyjaśnień, dzięki!
caracal