Resztki są naszymi szacunkami warunków błędu
Krótka odpowiedź na to pytanie jest stosunkowo prosta: założenia modelu regresji są założeniami dotyczącymi zachowania warunków błędu, a reszty są naszymi szacunkami warunków błędu. I tak też , badanie zachowania zaobserwowanych reszt mówi nam, czy założenia dotyczące warunków błędu są wiarygodne.
Aby bardziej szczegółowo zrozumieć tę ogólną linię rozumowania, pomocne jest szczegółowe zbadanie zachowania reszt w standardowym modelu regresji. W ramach standardowej wielokrotnej regresji liniowej z niezależnymi terminami normalnego błędu homoskedastycznego rozkład wektora resztkowego jest znany, co pozwala przetestować podstawowe założenia dystrybucyjne w modelu regresji. Podstawową ideą jest ustalenie rozkładu wektora resztkowego przy założeniach regresji, a następnie sprawdzenie, czy wartości resztkowe prawdopodobnie odpowiadają temu rozkładowi teoretycznemu. Odchylenia od teoretycznego rozkładu resztkowego pokazują, że założony rozkład warunków błędu jest pod pewnymi względami błędny.
Jeśli użyjesz podstawowego rozkładu błędów dla standardowego modelu regresji i użyjesz estymacji OLS dla współczynników, wówczas można pokazać rozkład reszt wielowymiarowy rozkład normalny:ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
gdzie jest macierzą kapelusza dla regresji. Wektor resztkowy naśladuje wektor błędu, ale macierz wariancji ma dodatkowy termin multiplikatywny . Aby przetestować założenia regresji, korzystamy ze studentizowanych reszt, które mają marginalny rozkład T:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Ta formuła dotyczy reszt studentizowanych zewnętrznie, gdzie estymator wariancji wyklucza rozważaną zmienną. Wartości są wartościami dźwigni, które są wartościami diagonalnymi w macierzy kapelusza . Uczniowie reszt nie są niezależne, ale jeśli jest duże, są one zbliżone do niezależnych. Oznacza to, że rozkład krańcowy jest prostym znanym rozkładem, ale rozkład połączeń jest skomplikowany.) Teraz, jeśli limit istnieje, to można wykazać, że estymatory współczynników są spójnymi estymatorami prawdziwych współczynników regresji, a reszty są spójnymi estymatorami warunki prawdziwego błędu.li=hi,inlimn→∞(xTx)/n=Δ
Zasadniczo oznacza to, że testujesz podstawowe założenia dystrybucyjne pod kątem błędów, porównując badane reszty z rozkładem T. Każda z podstawowych właściwości rozkładu błędów (liniowość, homoskedastyczność, błędy nieskorelowane, normalność) może być testowana przy użyciu analogicznych właściwości rozkładu badanych reszt. Jeśli model jest poprawnie określony, to dla dużych reszty powinny być zbliżone do warunków prawdziwego błędu i mieć podobną postać dystrybucyjną.n
Pominięcie zmiennej objaśniającej w modelu regresji prowadzi do pominięcia zmienności odchylenia w estymatorach współczynników, co wpływa na rozkład resztkowy. Pominięta zmienna wpływa zarówno na średnią, jak i wariancję wektora resztkowego. Jeśli pominięte terminy w regresji to wówczas pozostały wektor staje się . Jeśli wektory danych w pominiętej macierzy są wektorami normalnymi IID i niezależnymi od warunków błędu, wówczasZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) tak że rozkład resztkowy staje się:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Jeśli w modelu znajduje się już termin przechwytujący (tj. Jeśli wektor jednostkowy znajduje się w macierzy projektu), to1(I−h)1=0, co oznacza, że zachowana jest standardowa forma dystrybucji reszt. Jeśli w modelu nie ma wyrażenia przechwytującego, wówczas pominięta zmienna może dawać niezerową średnią dla reszt. Alternatywnie, jeśli pominięta zmienna nie jest normalna IID, może to prowadzić do innych odchyleń od standardowego rozkładu resztkowego. W tym ostatnim przypadku jest mało prawdopodobne, aby testy rezydualne wykryły cokolwiek wynikającego z obecności pominiętej zmiennej; zwykle nie jest możliwe ustalenie, czy odchylenia od teoretycznego rozkładu resztkowego występują w wyniku pominiętej zmiennej, czy tylko z powodu złej relacji z włączonymi zmiennymi (i prawdopodobnie są to w każdym przypadku to samo).
Zwykle terminy reszty i błędy oznaczają to samo. Jeśli twój model nie ma predyktorów, E (Y) jest rzeczywiście średnią Y. W predyktorach (jak w twoim modelu), E (Y) jest wartością Y przewidywaną z każdego X. Tak więc reszty są różnicą między każdym zaobserwowanym i przewidywał Y.
źródło