Strona Wikipedii na temat ANOVA wymienia trzy założenia , a mianowicie:
- Niezależność przypadków - jest to założenie modelu upraszczającego analizę statystyczną.
- Normalność - rozkłady reszt są normalne.
- Równość (lub „jednorodność”) wariancji, zwana homoscedastycznością ...
Punkt zainteresowania jest tutaj drugim założeniem. Kilka źródeł wylicza założenie inaczej. Niektórzy mówią o normalności surowych danych, inni twierdzą, że są to resztki.
Pojawia się kilka pytań:
- czy normalność i normalny rozkład reszt to ta sama osoba (na podstawie wpisu w Wikipedii twierdziłbym, że normalność jest własnością i nie dotyczy bezpośrednio reszt (ale może być właściwością reszt (głęboko zagnieżdżony tekst w nawiasach, dziwaczny)))?
- jeśli nie, jakie założenie należy przyjąć? Jeden? Obie?
- jeśli założenie o normalnie rozłożonych resztach jest słuszne, czy popełniamy poważny błąd, sprawdzając tylko histogram wartości surowych pod kątem normalności?
anova
residuals
assumptions
normality-assumption
Roman Luštrik
źródło
źródło
Odpowiedzi:
Załóżmy, że jest to model efektów stałych . (Rada tak naprawdę nie zmienia się w przypadku modeli z efektami losowymi, tylko trochę się komplikuje.)
Nie, normalność i normalny rozkład resztek nie są takie same . Załóżmy, że zmierzyłeś plon z uprawy z aplikacją nawozu i bez. Na poletkach bez nawozu plon wahał się od 70 do 130. Na dwóch poletkach z nawozem plon wahał się od 470 do 530. Rozkład wyników jest bardzo nietypowy: jest skupiony w dwóch miejscach związanych z aplikacją nawozu. Załóżmy ponadto, że średnie wydajności wynoszą odpowiednio 100 i 500. Wtedy wszystkie wartości resztkowe mieszczą się w zakresie od -30 do +30. Mogą być (lub nie) normalnie dystrybuowane, ale oczywiście jest to zupełnie inna dystrybucja.
Rozkład reszt ma znaczenie , ponieważ odzwierciedlają losową część modelu. Należy również zauważyć, że wartości p są obliczane ze statystyk F (lub t) i zależą one od reszt, a nie od wartości pierwotnych.
Jeśli dane mają znaczący i ważny wpływ (jak w tym przykładzie), możesz popełnić „poważny” błąd . Możesz, na szczęście, dokonać właściwego ustalenia: to znaczy, patrząc na surowe dane, zobaczysz mieszankę dystrybucji, a to może wyglądać normalnie (lub nie). Chodzi o to, że to, czego szukasz, nie ma znaczenia.
Resztki ANOVA nie muszą być zbliżone do normalnych, aby pasowały do modelu. Jednak prawie normalność reszt jest niezbędna, aby wartości p obliczone z rozkładu F były znaczące.
źródło
Standardowa klasyczna jednokierunkowa ANOVA może być postrzegana jako rozszerzenie klasycznego „testu T z 2 próbkami” do „testu T z n próbkami”. Można to zaobserwować porównując jednokierunkową ANOVA z tylko dwiema grupami z klasycznym 2-próbnym testem T.
Myślę, że mylisz się, że (zgodnie z założeniami modelu) reszty i surowe dane są ZARÓWNO normalnie rozłożone. Jednak surowe dane składają się z normalnych rozkładów na różne sposoby (chyba że wszystkie efekty są dokładnie takie same), ale z tą samą wariancją. Z drugiej strony reszty mają ten sam rozkład normalny . Wynika to z trzeciego założenia homoscedastyczności.
źródło
źródło