W metodzie najmniejszych kwadratów chcemy oszacować nieznane parametry w modelu:
Gdy to zrobimy (dla niektórych obserwowanych wartości), otrzymamy dopasowaną linię regresji:
Teraz oczywiście chcemy sprawdzić niektóre wykresy, aby upewnić się, że założenia zostały spełnione. Załóżmy, że chcesz sprawdzić homoscedastyczność, jednak w tym celu sprawdzamy resztki . Powiedzmy, że badasz wykres wartości rezydualnych i przewidywanych, jeśli to pokazuje nam, że heteroscedastyczność jest widoczna, to w jaki sposób odnosi się to do terminu zaburzenia ? Czy heteroscedastyczność w resztach implikuje heteroscedastyczność pod względem zakłóceń?
Związek między i jest następujący:ε^ ε
gdzie , matryca kapelusz jest .H X(XTX)−1XT
To znaczy, że jest liniową kombinacją wszystkich błędów, ale zazwyczaj większość ciężaru spada na ty.ε^i i
Oto przykład z wykorzystaniem
cars
zestawu danych w R. Rozważ punkt zaznaczony na fioletowo:Nazwijmy to wskazywać . Resztkowe, , gdzie dla pozostałych błędów jest w zakresie -0,02:i ε^i≈0.98εi+∑j≠iwjεj wj
Możemy przepisać to jako:
lub bardziej ogólnie
gdzie jest -tego elementu przekątnej . Podobnie powyższe to .hii i H wj hij
Jeżeli błędy mają identyfikator wówczas w tym przykładzie ważona suma tych innych błędów będzie miała odchylenie standardowe odpowiadające około 1/7 wpływu błędu tej obserwacji na jego resztkową wartość .N(0,σ2) i
To znaczy, że w dobrze zachowanych regresjach resztki można w większości traktować jak umiarkowanie głośne oszacowanie nieobserwowalnego terminu błędu. Kiedy bierzemy pod uwagę punkty dalej od centrum, rzeczy działają nieco mniej ładnie (reszta staje się mniej ważona na błędzie, a wagi innych błędów stają się mniej równe).
Przy wielu parametrach lub przy nie tak dobrze rozłożonych, reszty mogą być znacznie mniej podobne do błędów. Możesz spróbować kilku przykładów.X
źródło