Chciałbym wiedzieć, czy warto badać wykresy reszt w odniesieniu do zmiennej zależnej, gdy mam regresję jednowymiarową. Jeśli ma to sens, co oznacza silna, liniowa, rosnąca korelacja między resztami (na osi y) a oszacowanymi wartościami zmiennej zależnej (na osi x)?
regression
residuals
Luigi
źródło
źródło
Odpowiedzi:
Załóżmy, że masz regresję , gdzie . Następnie . Im wyższa wartość , tym większa wartość rezydualna. Przeciwnie, wykres reszt względem powinien wykazywać żadnego systematycznego związku. Ponadto przewidywana wartość powinna być w przybliżeniu --- taka sama dla każdej obserwacji. Jeśli wszystkie przewidywane wartości są w przybliżeniu takie same, powinny być nieskorelowane z błędami.yja= β0+ β1xja+ ϵja β1≈ 0 yja- β0≈ ϵja y x y^ja β^0
Co fabuła mówi mi, że i są zasadniczo niezwiązane (oczywiście, że są lepsze sposoby, aby pokazać to). Daj nam znać, jeśli Twój współczynnik nie jest bliski .x y β^1
W celu lepszej diagnostyki użyj wykresu reszt w stosunku do przewidywanego wynagrodzenia lub wartości . Na tych wykresach nie powinieneś obserwować wyraźnego wzoru.x
Jeśli chcesz trochę demonstracji R, proszę:
źródło
Zakładając, że oszacowany model jest poprawnie określony ...
Oznaczmy , macierz jest macierzą projekcji, więc i .PX=X(X′X)−1X′ PX P2X=PX P′X=PX
Tak więc wykres rozproszenia reszt względem przewidywanej zmiennej zależnej nie powinien wykazywać korelacji.
Ale!
Macierz jest macierzą projekcji, jej wartości własne wynoszą 0 lub +1, jest to dodatnia półfinał. Powinien więc mieć wartości nieujemne na przekątnej. Zatem wykres rozproszenia reszt względem oryginalnej zmiennej zależnej powinien wykazywać korelację dodatnią.σ2(I−PX)
O ile wiem, Gretl domyślnie tworzy wykres reszt w stosunku do oryginalnej zmiennej zależnej (nie przewidywanej!).
źródło
Czy to możliwe, że mylisz wartości dopasowane / prognozowane z wartościami rzeczywistymi?
Jak powiedzieli @gung i @biostat, masz nadzieję, że nie ma związku między dopasowanymi wartościami a resztkami. Z drugiej strony należy oczekiwać liniowej zależności między rzeczywistymi wartościami zmiennej zależnej / wyniku a resztami i nie jest to szczególnie pouczające.
Dodano w celu wyjaśnienia poprzedniego zdania: Nie należy oczekiwać żadnej liniowej zależności między resztami a rzeczywistymi wartościami wyjściowymi ... W przypadku niskich zmierzonych wartości Y, przewidywane wartości Y z użytecznego modelu będą zwykle wyższe niż rzeczywiste zmierzone wartości i na odwrót.
źródło
Oferowane odpowiedzi dają mi kilka pomysłów na temat tego, co się tutaj dzieje. Wierzę, że mogły być jakieś błędy popełnione przez przypadek. Sprawdź, czy poniższa historia ma sens: Na początek myślę, że prawdopodobnie istnieje silny związek między X i Y w danych (oto trochę kodu i wykresu):
Ale przez pomyłkę Y przewidywano tylko ze średniej. Łącząc to, reszty ze średniego modelu są wykreślane względem X, nawet jeśli zamierzano wykreślić względem dopasowanych wartości (kod i wykres):
Możemy to naprawić, dopasowując odpowiedni model i wykreślając z niego resztki (kod i wykres):
Wydaje się, że to tylko takie głupstwa, które robiłem, kiedy zaczynałem.
źródło
Ten wykres wskazuje, że dopasowany model nie jest dobry. Jak powiedział @gung w pierwszych komentarzach do głównego pytania, że nie powinno być związku między przewidywaną odpowiedzią a resztą.
„analityk powinien oczekiwać, że model regresji pomyli się w przewidywaniu reakcji w sposób losowy; model powinien przewidzieć wartości wyższe niż rzeczywiste i niższe niż rzeczywiste z jednakowym prawdopodobieństwem. Zobacz to ”
Poleciłbym pierwszą odpowiedź wykresu vs zmienną niezależną, aby zobaczyć związek między nimi. Uzasadnione może być dodanie do modelu terminów wielomianowych.
źródło
Czy nie dzieje się tak, jeśli nie ma związku między zmienną X i Y? Patrząc na ten wykres, wydaje się, że zasadniczo prognozujesz Y na podstawie jego średniej.
źródło
Myślę, że OP wykreślił resztki względem oryginalnej zmiennej odpowiedzi (nie dopasowanej zmiennej odpowiedzi z modelu). Cały czas widzę takie wykresy, z niemal identycznym wzorem. Upewnij się, aby wykreślić wartości resztkowe względem dopasowanych wartości, ponieważ nie jestem pewien, jaki sensowny wniosek można wyciągnąć z reszt względem oryginalnego Y. Ale z pewnością mogę się mylić.
źródło