Wydaje się, że ta kwestia cały czas ma brzydką głowę i staram się ją dekapitować dla własnego zrozumienia statystyki (i rozsądku!).
Założenia ogólnych modeli liniowych (test t, ANOVA, regresja itp.) Obejmują „założenie normalności”, ale stwierdziłem, że rzadko jest to jasno opisane.
Często natrafiam na podręczniki / podręczniki statystyki / po prostu stwierdzające, że „założenie normalności” stosuje się do każdej grupy (tj. Zmienne kategorialne X) i powinniśmy zbadać odstępstwa od normalności dla każdej grupy .
Pytania :
czy założenie odnosi się do wartości Y lub reszt Y?
dla konkretnej grupy , czy możliwe jest uzyskanie silnie nietypowego rozkładu wartości Y (np. pochylony) ALE w przybliżeniu (lub przynajmniej bardziej normalny) rozkład reszt Y?
Inne źródła opisują, że założenie dotyczy reszt modelu (w przypadkach, w których istnieją grupy, np. Testy t / ANOVA), i powinniśmy badać odstępstwa od normalności tych reszt (tj. Tylko jeden wykres QQ / test biegać).
czy normalność reszt dla modelu implikuje normalność reszt dla grup ? Innymi słowy, czy powinniśmy po prostu zbadać resztki modelu (w przeciwieństwie do instrukcji w wielu tekstach)?
Aby umieścić to w kontekście, rozważ ten hipotetyczny przykład:
- Chcę porównać wysokość drzewa (Y) między dwiema populacjami (X).
- W jednej populacji rozkład Y jest silnie przekrzywiony w prawo (tj. Większość drzew jest krótka, bardzo mało wysoka), podczas gdy druga jest praktycznie normalna
- Wysokość jest ogólnie wyższa w populacji normalnie rozmieszczonej (co sugeruje, że może istnieć „prawdziwa” różnica).
- Transformacja danych nie poprawia zasadniczo rozkładu pierwszej populacji.
Po pierwsze, czy można porównywać grupy, biorąc pod uwagę radykalnie różne rozkłady wysokości?
Jak podchodzę tutaj do „założenia normalności”? Wysokość przywołania w jednej populacji nie jest zwykle rozkładana. Czy osobno badam pozostałości dla obu populacji LUB pozostałości dla modelu (test t)?
Proszę odnieść się do pytań liczbowych w odpowiedziach, doświadczenie pokazało mi, że ludzie łatwo się gubią lub przechodzą na bok (szczególnie ja!). Pamiętaj, że nie jestem statystykiem; chociaż mam dość koncepcyjne (tj. nie techniczne!) zrozumienie statystyki.
PS. Przeszukałem archiwa i przeczytałem następujące wątki, które nie ugruntowały mojego zrozumienia:
- Założenie ANOVA normalność / rozkład normalny reszt
- Normalność reszt a dane próbki; co z testami t?
- Czy testowanie normalności jest „zasadniczo bezużyteczne”?
- Testowanie normalności
- Ocena normalności dystrybucji
- Jakich testów używam, aby potwierdzić, że resztki są zwykle rozprowadzane?
- Co zrobić, gdy test Kołmogorowa-Smirnowa jest istotny dla reszt testu parametrycznego, ale skośność i kurtoza wyglądają normalnie?
Odpowiedzi:
Jeden punkt, który może pomóc w zrozumieniu:
Jeśli jest normalny i i b są stałymi, a y = x -x a b jest również zwykle rozkładane (ale z możliwie inną średnią i wariancją).y=x−ab
Ponieważ reszty są tylko wartościami y pomniejszonymi o szacunkową średnią (standaryzowane reszty są również dzielone przez oszacowanie błędu standardowego), to jeśli wartości y są normalnie rozłożone, to reszty są również odwrotne. Kiedy więc mówimy o teorii lub założeniach, nie ma znaczenia, o czym mówimy, ponieważ jedno implikuje drugie.
W przypadku pytań prowadzi to do:
Inną kwestią, którą należy zrozumieć (ale często jest to błędne w nauce), jest to, że istnieją tutaj 2 rodzaje reszt: Teoretyczne reszty, które są różnicami między obserwowanymi wartościami a prawdziwym modelem teoretycznym, i obserwowane reszty, które są różnicami między zaobserwowanymi wartościami a szacunkami z obecnie dopasowanego modelu. Zakładamy, że teoretyczne reszty są normalne. Obserwowane reszty nie są i, i lub rozkładem normalnym (ale mają średnią 0). Jednak dla celów praktycznych zaobserwowane resztki szacują resztki teoretyczne i dlatego są nadal przydatne w diagnostyce.
źródło
Krótkie odpowiedzi:
Dłuższa odpowiedź:
Zakłada się, że zmienna zależna (y) jest zwykle rozkładana, ale z różnymi środkami dla różnych grup. W rezultacie, jeśli wykreślisz tylko rozkład y, może łatwo wyglądać zupełnie inaczej niż standardowa krzywa normalna w kształcie dzwonu. Reszty reprezentują rozkład y z tymi różnicami w środkach „odfiltrowanych”.
Alternatywnie, możesz spojrzeć na rozkład y w każdej grupie osobno. To również odfiltrowuje różnice w średnich między grupami. Zaletą jest to, że w ten sposób uzyskujesz również informacje o rozkładzie w każdej grupie, co w twoim przypadku wydaje się istotne. Wadą jest to, że każda grupa zawiera mniej obserwacji niż połączony zestaw danych, który można uzyskać, patrząc na pozostałości. Co więcej, nie będziesz w stanie sensownie porównać grup, jeśli masz wiele grup, np. Ponieważ wprowadziłeś wiele zmiennych predykcyjnych do swojego modelu lub (quasi) ciągłą zmienną predykcyjną do swojego modelu. Więc jeśli twój model składa się tylko z jednej jakościowej zmiennej predykcyjnej, a liczba obserwacji w każdej grupie jest wystarczająco duża, wówczas sensowne może być sprawdzenie rozkładu y w każdej grupie osobno.
źródło
Pytanie 3)
Ważną rzeczą przy stosowaniu modeli liniowych wymagających normalności jest to, że reszty, które nie są normalne, niezależnie od tego, czy jest to grupa, czy nie, są ważnym wskaźnikiem, że model może nie pasować do twoich danych.
Jeśli wykonujesz ANOVA, to oczywiście twoje ogólne pozostałości nie muszą być normalne (lub raczej homoscedastyczne), to nie miałoby sensu. Jednak w regresji lepiej mieć model z końcowymi normalnymi resztami. Jeśli nie, estymatory przedziałów i testy będą błędne. Może tak być w przypadku niektórych autokorelacji lub braku zmienności stronniczości. Jeśli model jest w 100% poprawny (w tym ewentualnie strukturalne pęknięcia i w razie potrzeby ważenie), nie jest zbyt daleko idące założenie normalnych terminów błędów, nawet wyśrodkowanych wokół 0. Praktycznie często pojawia się pytanie: czy możemy uniknąć tych rzeczy, jeśli próbka jest wystarczająco duży? Nie ma ostatecznej odpowiedzi, ale dla 100% poprawnego podejścia tak, wszystkie pozostałości powinny być normalne.
Pytanie 4 i 5)
Zależy to od tego, co masz na myśli przez porównanie. Biorąc pod uwagę założenie normalnych warunków błędu, możesz testować w oparciu o założenie dwóch różnych rozkładów. Możesz także użyć oszacowania GLS do regresji, aby uwzględnić różne parametry rozkładu - JEŻELI masz odpowiedni model ... i zgaduję, że same grupy działają jako zmienna wskaźnikowa / binarna?
Wtedy prawdopodobnie bardzo trudno byłoby uzasadnić, że rozkład resztek będzie normalny - konsekwencją jest to, że chociaż możesz robić rzeczy z danymi, nie będzie to oparte na zwykłym OLS.
Ale to zależy od tego, co chcesz zrobić z danymi.
Myślę, że dobrym podejściem byłoby przyjrzenie się algebrze zwykłego OLS z naciskiem na wynikowe rozkłady.
źródło