Nauczyłem się, że muszę testować normalność nie na surowych danych, ale na ich pozostałościach. Czy powinienem obliczyć pozostałości, a następnie wykonać test W Shapiro – Wilka?
Czy reszty są obliczane jako: ?
Zobacz moje poprzednie pytanie dotyczące moich danych i projektu.
Odpowiedzi:
Dlaczego musisz testować normalność?
Standardowe założenie regresji liniowej jest takie, że teoretyczne reszty są niezależne i normalnie rozłożone. Obserwowane reszty są oszacowaniem teoretycznych reszty, ale nie są niezależne (istnieją reszty, które usuwają część zależności, ale nadal dają jedynie przybliżenie prawdziwych reszty). Zatem test zaobserwowanych reszt nie gwarantuje, że teoretyczne reszty są zgodne.
Jeśli teoretyczne reszty nie są dokładnie rozłożone normalnie, ale wielkość próby jest wystarczająco duża, wówczas Centralne Twierdzenie Graniczne mówi, że zwykłe wnioskowanie (testy i przedziały ufności, ale niekoniecznie przedziały prognozowania) oparte na założeniu normalności nadal będzie w przybliżeniu poprawne .
Należy również pamiętać, że testy normalności są testami wykluczającymi, mogą powiedzieć, że jest mało prawdopodobne, aby dane pochodziły z rozkładu normalnego. Ale jeśli test nie jest znaczący, co nie oznacza, że dane pochodzą z rozkładu normalnego, może to również oznaczać, że po prostu nie masz wystarczającej mocy, aby zobaczyć różnicę. Większe rozmiary próbek dają więcej mocy do wykrywania nienormalności, ale większe próbki i CLT oznaczają, że nienormalność jest najmniej ważna. Tak więc dla małych wielkości próby ważne jest założenie normalności, ale testy są bez znaczenia, dla dużych próbek próby mogą być dokładniejsze, ale kwestia dokładnej normalności staje się bez znaczenia.
Tak więc łącząc wszystkie powyższe, ważniejsze niż test dokładnej normalności jest zrozumienie nauki stojącej za danymi, aby sprawdzić, czy populacja jest wystarczająco zbliżona do normalnej. Wykresy takie jak qqplots mogą być dobrą diagnostyką, ale potrzebne jest również zrozumienie nauki. Jeśli istnieje obawa, że istnieje zbyt duża skośność lub potencjał wartości odstających, dostępne są metody nieparametryczne, które nie wymagają założenia normalności.
źródło
Zatwierdzenia Gaussa odnoszą się do reszt z modelu. Nie ma żadnych założeń dotyczących oryginalnych danych. Na przykład rozkład dziennej sprzedaży piwa. Po rozsądnym modelu zarejestrowano dzień tygodnia, efekty wakacji / wydarzeń, zmiany poziomów / trendy czasowe
źródło
Najpierw możesz „spojrzeć na nią” za pomocą wykresu QQ, aby uzyskać ogólny sens , jak wygenerować go w R.
Zgodnie z instrukcją R możesz wrzucić wektor danych bezpośrednio do funkcji shapiro.test ().
Jeśli chcesz samodzielnie obliczyć resztki, tak, każda resztka jest obliczana w ten sposób na podstawie zestawu obserwacji. Możesz dowiedzieć się więcej na ten temat tutaj .
źródło