W kontekście regresji OLS rozumiem, że wykres resztkowy (w porównaniu z dopasowanymi wartościami) jest konwencjonalnie oglądany w celu przetestowania stałej wariancji i oceny specyfikacji modelu. Dlaczego reszty są wykreślane względem pasowań, a nie wartości ? Czym różnią się informacje od tych dwóch wykresów?
Pracuję nad modelem, który wytworzył następujące wykresy resztkowe:
Wykres w porównaniu z dopasowanymi wartościami wygląda dobrze na pierwszy rzut oka, ale drugi wykres względem wartości ma wzór. Zastanawiam się, dlaczego tak wyraźny wzór nie zamanifestuje się również w fabule szczątkowej vs.
Nie szukam pomocy w diagnozowaniu problemów z modelem, ale po prostu próbuję zrozumieć różnice (ogólnie) między (1) wykresem rezydualnym a dopasowanym i (2) wykresem rezydualnym a
Jeśli chodzi o wartość, jestem pewien, że wzorzec błędów na drugim wykresie wynika z pominiętych zmiennych wpływających na DV. Obecnie pracuję nad uzyskaniem tych danych, które, jak się spodziewam, pomogą w ogólnym dopasowaniu i specyfikacji. Pracuję z danymi nieruchomości: DV = Cena sprzedaży. IVs: Powierzchnia domu, # miejsca w garażu, rok budowy, rok budowy .
źródło
Odpowiedzi:
Konstruując, termin błędu w modelu OLS jest nieskorelowany z obserwowanymi wartościami współzmiennych X. Będzie to zawsze prawdziwe w odniesieniu do obserwowanych danych, nawet jeśli model generuje tendencyjne oszacowania, które nie odzwierciedlają prawdziwych wartości parametru, ponieważ założenie modelu jest naruszone (jak problem pominiętej zmiennej lub problem z odwrotną przyczynowością). Prognozowane wartości są całkowicie funkcją tych zmiennych towarzyszących, więc są one również nieskorelowane ze składnikiem błędu. Tak więc, kiedy rysujesz wartości resztkowe w stosunku do przewidywanych wartości, powinny one zawsze wyglądać losowo, ponieważ faktycznie nie są one skorelowane przez konstrukcję estymatora. W przeciwieństwie do tego, jest całkowicie możliwe (i rzeczywiście prawdopodobne), że warunek błędu modelu zostanie skorelowany z Y w praktyce. Na przykład, w przypadku dychotomicznej zmiennej X, dalsze prawdziwe Y pochodzi z jednego lub drugiego
E(Y | X = 1)
lubE(Y | X = 0)
im większa będzie resztkowa wartość. Oto ta sama intuicja z danymi symulowanymi w R, gdzie wiemy, że model jest bezstronny, ponieważ kontrolujemy proces generowania danych:Otrzymujemy ten sam wynik zerowej korelacji z modelem tendencyjnym, na przykład, jeśli pominiemy
x1.
źródło
Dwa fakty, które zakładam, że jesteś ze mną zadowolony, stwierdzając:
Następnie:
Więc chociaż dopasowana wartość nie jest skorelowana z resztą, obserwacja jest .
W rzeczywistości dzieje się tak, ponieważ zarówno obserwacja, jak i pozostałość są powiązane z błędem.
Zwykle utrudnia to wykorzystanie wykresu resztkowego do celów diagnostycznych.
źródło