Co powinienem sprawdzić pod kątem normalności: surowe dane lub pozostałości?

27

Nauczyłem się, że muszę testować normalność nie na surowych danych, ale na ich pozostałościach. Czy powinienem obliczyć pozostałości, a następnie wykonać test W Shapiro – Wilka?

Czy reszty są obliczane jako: ?Xja-oznaczać

Zobacz moje poprzednie pytanie dotyczące moich danych i projektu.

stan
źródło
Czy robisz to przy użyciu oprogramowania (a jeśli tak, to jakie oprogramowanie), czy próbujesz wykonać obliczenia ręcznie?
Chris Simokat
@Chris Simokat: Próbuję to zrobić z R i Statisticą ...
stan
3
To pytanie może być interesujące: co-jeśli-resztki-są-zwykle-dystrybuowane-ale-y-nie-są ; obejmuje także kwestię, czy wymagana jest normalność surowych danych, czy pozostałych.
Gung - Przywróć Monikę
1
Niestety, nie jestem wystarczająco bystry w / SAS, aby wiedzieć, jak to zrobić automatycznie w różnych sytuacjach. Jednak po uruchomieniu regresji powinieneś być w stanie zapisać resztki do wyjściowego zestawu danych, a następnie można utworzyć wykres qq.
gung - Przywróć Monikę
1
Dobra informacja Karen Grace-Martin: to i to
stan

Odpowiedzi:

37

Dlaczego musisz testować normalność?

Standardowe założenie regresji liniowej jest takie, że teoretyczne reszty są niezależne i normalnie rozłożone. Obserwowane reszty są oszacowaniem teoretycznych reszty, ale nie są niezależne (istnieją reszty, które usuwają część zależności, ale nadal dają jedynie przybliżenie prawdziwych reszty). Zatem test zaobserwowanych reszt nie gwarantuje, że teoretyczne reszty są zgodne.

Jeśli teoretyczne reszty nie są dokładnie rozłożone normalnie, ale wielkość próby jest wystarczająco duża, wówczas Centralne Twierdzenie Graniczne mówi, że zwykłe wnioskowanie (testy i przedziały ufności, ale niekoniecznie przedziały prognozowania) oparte na założeniu normalności nadal będzie w przybliżeniu poprawne .

Należy również pamiętać, że testy normalności są testami wykluczającymi, mogą powiedzieć, że jest mało prawdopodobne, aby dane pochodziły z rozkładu normalnego. Ale jeśli test nie jest znaczący, co nie oznacza, że ​​dane pochodzą z rozkładu normalnego, może to również oznaczać, że po prostu nie masz wystarczającej mocy, aby zobaczyć różnicę. Większe rozmiary próbek dają więcej mocy do wykrywania nienormalności, ale większe próbki i CLT oznaczają, że nienormalność jest najmniej ważna. Tak więc dla małych wielkości próby ważne jest założenie normalności, ale testy są bez znaczenia, dla dużych próbek próby mogą być dokładniejsze, ale kwestia dokładnej normalności staje się bez znaczenia.

Tak więc łącząc wszystkie powyższe, ważniejsze niż test dokładnej normalności jest zrozumienie nauki stojącej za danymi, aby sprawdzić, czy populacja jest wystarczająco zbliżona do normalnej. Wykresy takie jak qqplots mogą być dobrą diagnostyką, ale potrzebne jest również zrozumienie nauki. Jeśli istnieje obawa, że ​​istnieje zbyt duża skośność lub potencjał wartości odstających, dostępne są metody nieparametryczne, które nie wymagają założenia normalności.

Greg Snow
źródło
6
Aby odpowiedzieć na pytanie w pierwszym wierszu: Przybliżona normalność jest kluczowa dla zastosowania testów F w ANOVA i dla stworzenia granic ufności wokół wariancji. (+1) za dobre pomysły.
whuber
4
@ whuber, tak, przybliżona normalność jest ważna, ale testy sprawdzają dokładność normalną, a nie przybliżoną. W przypadku dużych rozmiarów próbek przybliżone dane nie muszą być bardzo bliskie (w przypadku których testy najprawdopodobniej zostaną odrzucone). Dobra fabuła i znajomość nauki, która wytworzyła dane, są znacznie bardziej przydatne niż formalny test normalności, jeśli uzasadniasz zastosowanie testów F (lub innych wnioskowania normalnego).
Greg Snow,
Greg, OK. Dopasowuję rozkład i widzę, że moje dane pochodzą z, powiedzmy, z wersji Beta lub Gamma i co mam wtedy zrobić? ANOVA, która zakłada prawo Gaussa?
stan
2
(+1) Poszło dobrze, z wyjątkiem końca. Nie musisz wybierać między (a) regresją opartą na założeniu normalności i (b) procedurami nieparametrycznymi. Transformacje przed regresją i / lub uogólnione modele liniowe to tylko dwie główne alternatywy. Rozumiem, że nie próbujesz tutaj podsumować wszystkiego na temat modelowania statystycznego, ale ostatnia część mogłaby zostać nieco wzmocniona.
Nick Cox,
Czy w końcu w regresji liniowej powinniśmy przetestować normalność surowych danych czy normalność reszt?
vasili111
7

Zatwierdzenia Gaussa odnoszą się do reszt z modelu. Nie ma żadnych założeń dotyczących oryginalnych danych. Na przykład rozkład dziennej sprzedaży piwa. wprowadź opis zdjęcia tutajPo rozsądnym modelu zarejestrowano dzień tygodnia, efekty wakacji / wydarzeń, zmiany poziomów / trendy czasowewprowadź opis zdjęcia tutaj

IrishStat
źródło
dzięki za odpowiedź. Chcesz powiedzieć, że możemy przekształcić nasze dane w rozkład Gaussa ...?
stan
3
Stan, rolą modelowania jest dokładnie to zrobić, aby można było wyciągnąć wnioski i przetestować hipotezę.
IrishStat
6

Najpierw możesz „spojrzeć na nią” za pomocą wykresu QQ, aby uzyskać ogólny sens , jak wygenerować go w R.

Zgodnie z instrukcją R możesz wrzucić wektor danych bezpośrednio do funkcji shapiro.test ().

Jeśli chcesz samodzielnie obliczyć resztki, tak, każda resztka jest obliczana w ten sposób na podstawie zestawu obserwacji. Możesz dowiedzieć się więcej na ten temat tutaj .

Chris Simokat
źródło
Tak więc, o ile rozumiem, metody dla Normalności faktycznie sprawdzają normalność resztek naszych surowych danych. Robią to automatycznie i nie powinniśmy obliczać pozostałości i poddawać ich testowi. W codziennej mowie zwykle przełączamy się na „moje dane są normalnie dystrybuowane”, zakładając, że resztki moich danych są „normalne”. Proszę mnie poprawić.
stan
6
Nie zgadzam się z twoim ostatnim punktem. Ludzie, którzy twierdzą, że moje dane są zwykle dystrybuowane, zwykle nie odnoszą się do pozostałości. Myślę, że ludzie tak mówią, ponieważ uważają, że każda procedura statystyczna wymaga, aby wszystkie dane były normalne.
Glen
@Glen szczerze mówiąc, do tej pory (fałszywie) myślę tak samo ... Nie rozumiem (to mój problem), jeśli mam gamma, beta lub jakiekolwiek inne rozpowszechniane dane, czy powinienem robić dla nich statystyki tak samo, jak zwykle dystrybuowane pomimo ich prawdziwej / naturalnej dystrybucji? A fakt dystrybucji jest tylko dla orientacji? Znam tylko rozkład Gaussa przed tą witryną ...
stan