Dlaczego korelacja reszt nie ma znaczenia przy testowaniu normalności?

9

Gdy (tzn. pochodzi z modelu regresji liniowej), w tym przypadku resztki są skorelowane i nie są niezależne. Ale kiedy wykonujemy diagnostykę regresji i chcemy przetestować założenie , każdy podręcznik sugeruje użycie wykresów Q – Q i testów statystycznych dla reszt które zostały zaprojektowane do testowania, czy dla niektórych .Y=AX+εY

εN(0,σ2I)e^=(IH)YN(0,(IH)σ2)
e^1,,e^nεN(0,σ2I)e^e^N(0,σ2I)σ2R

Dlaczego dla tych testów nie ma znaczenia, że ​​reszty są skorelowane, a nie niezależne? Często zaleca się stosowanie standardowych reszt: ale to czyni je tylko homoscedastycznymi, a nie niezależnymi.

e^i=e^i1hii,

Przeformułowanie pytania: Reszty z regresji OLS są skorelowane. Rozumiem, że w praktyce korelacje te są tak małe (przez większość czasu? Zawsze?), Że można je zignorować podczas testowania, czy reszty pochodzą z rozkładu normalnego. Moje pytanie brzmi: dlaczego?

Zoran Loncarevic
źródło
1
Czyni je homoscedastycznymi.
Scortchi - Przywróć Monikę
1
Czy pytasz o możliwość zastosowania tych testów, gdy reszty mają silne korelacje, czy martwisz się (bardzo nieznaczną i nieistotną) korelacją ujemną wynikającą z procedury szacowania metodą najmniejszych kwadratów?
whuber
1
@ whuber Pytam o korelację wynikającą z procedury szacowania metodą najmniejszych kwadratów. Jeśli są nieznaczne i nieistotne, chciałbym wiedzieć, dlaczego.
Zoran Loncarevic

Odpowiedzi:

3

W twojej notacji jest rzutem i przestrzenią kolumny , tj. Podprzestrzenią obejmującą wszystkie regresory. Dlatego jest rzutem na wszystko prostopadle do podprzestrzeni rozpiętej przez wszystkie regresory.HXM:=InH

Jeśli , to jest pojedynczo rozłożony normalnie, a elementy są skorelowane, jak pan mówi.XRn×ke^Rn

Błędy są niedostrzegalna i na ogół nie są prostopadłe do podprzestrzeni rozpiętej przez . Dla celów argumentu załóżmy, że błąd . Gdyby tak było, mielibyśmy z . Ponieważ , możemy rozłożyć i uzyskać true .εXεspan(X)y=Xβ+ε=y~+εy~εy~=XβZakres(X)yε

Załóżmy, że mamy bazę z , gdzie pierwszy wektor obejmuje podprzestrzeń nazwa i pozostałe span . Ogólnie rzecz biorąc, błąd będzie miał niezerowe komponenty dla . Te niezerowe komponenty zostaną pomieszane z i dlatego nie można ich odzyskać przez projekcję na .b1,,bnRnb1,,bkZakres(X)bk+1,,bnZakres(X)ε=α1b1++αnbnαjaja{1,,k}XβZakres(X)

Ponieważ nigdy nie możemy mieć nadziei na odzyskanie prawdziwych błędów i są skorelowane w liczbie pojedynczej wymiarowej normalnej, moglibyśmy przekształcić . Tam możemy mieć tj. jest niepodzielną nieskorelowaną i homoscedastyczną rozkładem normalnym. Reszty nazywane są pozostałości BLUS Thiel jest .εmi^nmi^RnmiRn-k

miN.n-k(0,σ2)jan-k),
mimi

W krótkim artykule o badaniu zaburzeń regresji dla normalności znajduje się porównanie reszt OLS i BLUS. W testowanym ustawieniu Monte Carlo reszty OLS są lepsze niż reszty BLUS. Ale to powinno dać ci punkt wyjścia.

Marco Breitig
źródło