W jaki sposób wartości rezydualne odnoszą się do podstawowych zakłóceń?

9

W metodzie najmniejszych kwadratów chcemy oszacować nieznane parametry w modelu:

Yj=α+βxj+εj(j=1...n)

Gdy to zrobimy (dla niektórych obserwowanych wartości), otrzymamy dopasowaną linię regresji:

Yj=α^+β^x+ej(j=1,...n)

Teraz oczywiście chcemy sprawdzić niektóre wykresy, aby upewnić się, że założenia zostały spełnione. Załóżmy, że chcesz sprawdzić homoscedastyczność, jednak w tym celu sprawdzamy resztki . Powiedzmy, że badasz wykres wartości rezydualnych i przewidywanych, jeśli to pokazuje nam, że heteroscedastyczność jest widoczna, to w jaki sposób odnosi się to do terminu zaburzenia ? Czy heteroscedastyczność w resztach implikuje heteroscedastyczność pod względem zakłóceń? ejεj

Danny
źródło

Odpowiedzi:

3

Najprostszym sposobem, aby o tym pomyśleć, jest to, że surowe reszty ( ) są szacunkami odpowiednich zakłóceń ( ). Istnieją jednak dodatkowe komplikacje. Na przykład, chociaż zakładamy w standardowym modelu OLS, że błędy / zakłócenia są niezależne, resztki nie mogą być wszystkie. Zasadniczo tylko reszty mogą być niezależne, ponieważ użyłeś stopni swobody do oszacowania modelu średniego, a reszty są ograniczone do zsumowania doej=yjy^jε^j=ejNp1p10. Ponadto odchylenie standardowe surowych pozostałości nie jest w rzeczywistości stałe. Zasadniczo linia regresji jest dopasowana w taki sposób, że będzie ona średnio bliższa punktom o większej dźwigni. W rezultacie standardowe odchylenie reszt dla tych punktów jest mniejsze niż odchylenie dla niskich punktów dźwigni. (Aby dowiedzieć się więcej na ten temat, pomocne może być przeczytanie, odpowiedzi tutaj: Interpreting plot.lm () i / lub tutaj: Jak przeprowadzić analizę resztkową dla binarnych / dychotomicznych niezależnych predyktorów w regresji liniowej? )

gung - Przywróć Monikę
źródło
3
Aby wyjaśnić, najwyżej reszty Np-1 mogą być niezależne, ale zazwyczaj wszystkie są skorelowane; zamiast tego istnieją ich liniowe transformacje, które mogą mieć niezależne komponenty Np-1.
Glen_b
@Glen_b, dobra uwaga.
gung - Przywróć Monikę
8

Związek między i jest następujący:ε^ε

ε^=(IH)ε

gdzie , matryca kapelusz jest .HX(XTX)1XT

To znaczy, że jest liniową kombinacją wszystkich błędów, ale zazwyczaj większość ciężaru spada na ty.ε^ii

Oto przykład z wykorzystaniem carszestawu danych w R. Rozważ punkt zaznaczony na fioletowo:

wprowadź opis zdjęcia tutaj

Nazwijmy to wskazywać . Resztkowe, , gdzie dla pozostałych błędów jest w zakresie -0,02:iε^i0.98εi+jiwjεjwj

wprowadź opis zdjęcia tutaj

Możemy przepisać to jako:

ε^i0.98εi+ηi

lub bardziej ogólnie

ε^i=(1hii)εi+ηi

gdzie jest -tego elementu przekątnej . Podobnie powyższe to .hiiiHwjhij

Jeżeli błędy mają identyfikator wówczas w tym przykładzie ważona suma tych innych błędów będzie miała odchylenie standardowe odpowiadające około 1/7 wpływu błędu tej obserwacji na jego resztkową wartość .N(0,σ2)i

To znaczy, że w dobrze zachowanych regresjach resztki można w większości traktować jak umiarkowanie głośne oszacowanie nieobserwowalnego terminu błędu. Kiedy bierzemy pod uwagę punkty dalej od centrum, rzeczy działają nieco mniej ładnie (reszta staje się mniej ważona na błędzie, a wagi innych błędów stają się mniej równe).

Przy wielu parametrach lub przy nie tak dobrze rozłożonych, reszty mogą być znacznie mniej podobne do błędów. Możesz spróbować kilku przykładów.X

Glen_b - Przywróć Monikę
źródło
2
To jest właściwe podejście. Potrzebny jest ponadto argument, że przekątne elementy są zwykle „małe”. Dokonuje się tego, pokazując, że ślad jest równy liczbie zmiennych niezależnych (w tym ewentualnego punktu przecięcia) - co wynika bezpośrednio z faktu, że jest to macierz projekcji. Zauważ, że wynik ten jest niezależny od jakichkolwiek założeń dotyczących dystrybucji na poziomie : nie muszą one być normalne. Jest również niezależny od jakiegokolwiek faktycznego wzoru na ; jest to konsekwencja liczby wymiarów. HεiH
whuber
Czy nie byłoby innej okoliczności, w której reszty mogłyby być znacznie mniej podobne do błędów, gdyby liczba obserwacji była niewielka? Zwykle jak @ whuber stwierdza, że ​​ślad jest równy liczbie zmiennych niezależnych implikuje, że jego elementy diagonalne są małe, ale niekoniecznie tak by było, gdyby liczba tych elementów była sama w sobie mała. nHn
Adam Bailey
@AdamBailey Pewnie, że zdarza się, gdy jest małe ... ale to dlatego, że jest stosunkowo duży, nawet jeśli wynosi tylko 1 lub 2.np/np
Glen_b