Chciałbym wykonać test W Shapiro Wilka i test Kołmogorowa-Smirnowa na resztkach modelu liniowego w celu sprawdzenia normalności. Zastanawiałem się tylko, jakie resztki powinny być do tego użyte - surowe resztki, resztki Pearsona, resztki studenckie czy resztki standaryzowane? Dla testu W Shapiro-Wilka wydaje się, że wyniki dla reszt surowych i Pearsona są identyczne, ale nie dla innych.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
To samo pytanie dla KS, a także czy resztki powinny być testowane względem rozkładu normalnego (pnorm) jak w
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
lub rozkład t-student z nk-2 stopniami swobody, jak w
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
Może jakaś rada? Jakie są zalecane wartości dla statystyk testowych W (> 0,9?) I D, aby rozkład był wystarczająco zbliżony do normalności i nie wpływał zbytnio na twoje wnioskowanie?
Wreszcie, czy to podejście uwzględnia niepewność w dopasowanych współczynnikach lm, czy może lepiej byłoby pod tym względem funkcjonować cumres()
w pakiecie gof()
?
na zdrowie, Tom
źródło
Odpowiedzi:
Za długo urósł do komentarza.
W przypadku zwykłego modelu regresji (takiego, jaki byłby dopasowany
lm
), nie ma rozróżnienia między dwoma pierwszymi rozważanymi typami resztkowymi;type="pearson"
jest istotny dla GLM niegaussowskich, ale jest taki sam jakresponse
dla modeli gaussowskich.Obserwacje, do których stosujesz swoje testy (niektóre formy resztek) nie są niezależne, więc zwykłe statystyki nie mają prawidłowego rozkładu. Ponadto, ściśle mówiąc, żadna z reszt, które rozważasz, nie będzie dokładnie normalna, ponieważ twoje dane nigdy nie będą dokładnie normalne. [Formalne testowanie odpowiada na niewłaściwe pytanie - bardziej trafne pytanie brzmiałoby: „w jakim stopniu ta nienormalność wpłynie na moje wnioskowanie?”, Na pytanie, na które nie odpowiada zwykłe sprawdzanie poprawności hipotezy.]
Nawet jeśli twoje dane miałyby być dokładnie normalne, ani trzeci, ani czwarty rodzaj reszty nie byłby dokładnie normalny. Niemniej jednak ludzie częściej badają te (powiedzmy na podstawie wykresów QQ) niż surowe reszty.
źródło