Interpretacja wykresu reszt i dopasowanych wartości w celu weryfikacji założeń modelu liniowego

34

Rozważ następującą liczbę z modeli liniowych Faraway z R (2005, s. 59).

wprowadź opis zdjęcia tutaj

Pierwszy wykres wydaje się wskazywać, że reszty i dopasowane wartości są nieskorelowane, ponieważ powinny być w homoscedastycznym modelu liniowym z błędami o rozkładzie normalnym. Dlatego drugi i trzeci wykres, które wydają się wskazywać na zależność między wartościami resztkowymi a dopasowanymi wartościami, sugerują inny model.

Ale dlaczego drugi wykres sugeruje, jak zauważa Faraway, heteroscedastyczny model liniowy, podczas gdy trzeci wykres sugeruje model nieliniowy?

Drugi wykres wydaje się wskazywać, że wartość bezwzględna reszt jest silnie dodatnio skorelowana z dopasowanymi wartościami, podczas gdy żaden trend nie jest widoczny na trzecim wykresie. Gdyby tak było, teoretycznie w heteroscedastycznym modelu liniowym z błędami o rozkładzie normalnym

Cor(e,y^)=[1111]

(gdzie wyrażenie po lewej stronie jest macierzą wariancji-kowariancji między resztami a dopasowanymi wartościami) wyjaśniałoby to, dlaczego wykresy drugi i trzeci zgadzają się z interpretacjami Faraway'a.

Ale czy tak jest w tym przypadku? Jeśli nie, to w jaki inny sposób uzasadnić można interpretację Faraway drugiej i trzeciej fabuły? Ponadto, dlaczego trzeci wykres niekoniecznie wskazuje na nieliniowość? Czy nie jest możliwe, że jest on liniowy, ale że błędy albo nie są normalnie rozłożone, albo że są normalnie rozłożone, ale nie są wyśrodkowane wokół zera?

Evan Aad
źródło
3
Żadna z trzech wykresów nie wykazuje korelacji (przynajmniej korelacja nieliniowa, co jest odpowiednim znaczeniem „korelacji” w tym sensie, w jakim jest ona stosowana w „ resztach, a dopasowane wartości są nieskorelowane ”).
Glen_b
1
@Glen_b: Dzięki. Poprawiłem akapit, o którym mówiłeś, zastępując słowo „zależność” słowem „korelacja”.
Evan Aad,

Odpowiedzi:

46

Poniżej znajdują się wykresy rezydualne z przybliżoną średnią i rozproszeniem punktów (granice, które obejmują większość wartości) przy każdej wartości dopasowanej (a zatem ) oznaczonej w przybliżeniu przybliżonej wartości średniej warunkowej (czerwonej) i średniej warunkowej (z grubsza!) dwukrotność warunkowego odchylenia standardowego (fioletowy):x±

wykresy diagnostyczne z przybliżoną średnią i rozkładem przy każdej wartości dopasowanego oznaczonego

  • Drugi wykres pokazuje, że średnia wartość resztkowa nie zmienia się wraz z dopasowanymi wartościami (a więc nie zmienia się wraz z ), ale rozprzestrzenianie się reszt (i stąd wokół dopasowanej linii) rośnie, gdy dopasowane wartości (lub ) zmiany. Oznacza to, że spread nie jest stały. Heteroskedastyczność.xyx

  • trzeci wykres pokazuje, że reszty są w większości ujemne, gdy dopasowana wartość jest mała, dodatnia, gdy dopasowana wartość jest pośrodku, a ujemna, gdy dopasowana wartość jest duża. To znaczy, rozpiętość jest w przybliżeniu stała, ale średnia warunkowa nie jest - dopasowana linia nie opisuje, jak zachowuje się jak zmiany , ponieważ związek jest zakrzywiony.yx

Czy nie jest możliwe, że jest on liniowy, ale że błędy albo nie są normalnie rozłożone, albo że są normalnie rozłożone, ale nie są wyśrodkowane wokół zera?

Niezupełnie *, w takich sytuacjach wykresy wyglądają inaczej niż wykres trzeci.

(i) Gdyby błędy były normalne, ale nie były wyśrodkowane na zero, ale w , powiedzmy w, , wówczas przecięcie przechwyciłoby średni błąd, a zatem oszacowany byłby oszacowaniem (to byłby jego wartość oczekiwana, ale jest szacowana z błędem). W rezultacie twoje reszty nadal miałyby warunkową średnią zero, więc wykres wyglądałby jak pierwszy wykres powyżej.θβ0+θ

(ii) Jeśli błędy nie są normalnie rozłożone, wzór kropek może być najgęstszy w innym miejscu niż linia środkowa (gdyby dane były wypaczone), powiedzmy, ale lokalna średnia resztkowa nadal byłaby bliska 0.

niestandardowe błędy

Tutaj fioletowe linie nadal reprezentują (bardzo) przedział około 95%, ale nie jest już symetryczny. (Rozmyślam nad kilkoma kwestiami, aby uniknąć zaciemnienia podstawowej kwestii tutaj.)

* To niekoniecznie niemożliwe - jeśli masz „error” termin, który tak naprawdę nie zachowują się jak błędy - powiedzieć, gdzie i są podobne do nich w odpowiedni sposób - może być w stanie produkować wzory coś jak te. Przyjmujemy jednak założenia dotyczące terminu błędu, na przykład, że nie jest on związany na przykład z i ma średnią zero; musielibyśmy złamać przynajmniej niektóre z takich założeń, aby to zrobić. (W wielu przypadkach możesz mieć powód, by stwierdzić, że takie efekty powinny być nieobecne lub przynajmniej stosunkowo niewielkie).xyx

Glen_b - Przywróć Monikę
źródło
1
Pokażę, czy rozumiem poprawnie. Czy homoscedastyczność oznacza, że ​​rozprzestrzenianie się błędów nie zależy od x (a zatem nie zależy również od , ponieważ jest funkcją )? y^y^x
Evan Aad
2
Homoskedastyczność dosłownie oznacza „taki sam spread”. To jest (populacyjna) wariancja odpowiedzi w każdym punkcie danych powinna być taka sama. Jednym z obserwowalnych sposobów, w jaki może różnić się od bycia równym, jest zmiana ze średnią (oszacowaną przez dopasowanie); Innym sposobem jest zmiana zmiennej niezależnej (choć w przypadku prostej regresji prawdopodobnie w większości przypadków dostępna jest tylko jedna zmienna niezależna, więc obie będą w zasadzie takie same). Można sobie wyobrazić sytuację, w której średnia zmienia się z ale rozkład zmienia się z , który sam nie jest związany z . x1x2x1
Glen_b
1
(ctd) ... to nadal byłoby pogwałceniem wszystkich obserwacji mających ten sam zasięg. [Byłem trochę luźny z rozróżnieniem między wartościami i dopasowanymi; Spróbuję to posprzątać.]x
Glen_b
Dziękuję Ci. Sytuacja jest teraz znacznie wyraźniejsza. Myślałem, że homoscedastyczność oznacza, że ​​macierz wariancji-kowariancji błędu ma postać , a więc w szczególności, jeśli wektor błędu jest dystrybuowany jako dla niektórych arbitralnych macierzy symetrycznych model był heteroscedastyczny. Teraz zdaję sobie sprawę, że tak nie jest. Ale teraz, gdy rozumiem znaczenie homoscedastyczności, mam inne pytanie. Czy można stwierdzić na podstawie pierwszego wykresu Faraway, że macierz wariancji kowariancji błędu ma postać ? Czy może to być dowolne ? σ2IN(0,V)Vσ2IV
Evan Aad,
1
(ctd) ... jak powinieneś widzieć z mojego pierwszego komentarza pod moją odpowiedzią, w szczególności w wyniku zdania rozpoczynającego się „Możesz sobie wyobrazić ...” - ale w zasadzie wyklucza to heteroskedastyczność związaną z średnia
Glen_b
2

Napisałeś

Drugi wykres wydaje się wskazywać, że wartość bezwzględna reszt jest silnie dodatnio skorelowana z dopasowanymi wartościami,

Nie wydaje się, że tak. I to właśnie oznacza heteroskedastyka.

Następnie podajesz macierz wszystkich 1, co nie ma znaczenia; korelacja może istnieć i być mniejsza niż 1.

Potem piszesz

Ponadto, dlaczego trzeci wykres niekoniecznie wskazuje na nieliniowość? Czy nie jest możliwe, że jest on liniowy, ale że błędy albo nie są normalnie rozłożone, albo że są normalnie rozłożone, ale nie są wyśrodkowane wokół zera?

Oni zrobić centrum wokół 0. pół lub tak są poniżej 0, połowa powyżej. Trudniej jest stwierdzić, czy są one normalnie rozmieszczone z tego wykresu, ale inny zwykle zalecany wykres to kwantowo-normalny wykres reszt, który pokazuje, czy są one normalne, czy nie.

Peter Flom - Przywróć Monikę
źródło
Dziękuję Ci. Czy to możliwe, że rozkład błędów pierwszego wykresu jest dla jakiejś macierzy symetrycznej , która nie ma postaci ? Jeśli tak, to czy nadal możemy użyć wykresu QQ, aby dowiedzieć się, że błędy rozkładają się normalnie? N(0,V)Vσ2I
Evan Aad
1
Wykres kwantylu normalnego patrzy tylko na normalność. Dowody na homoskedastyczność w pierwszym spisku są wizualne
Peter Flom - Przywróć Monikę
@PeterFlom: Przepraszam za nekropostę: Jestem trochę zdezorientowany co do kwantyfikacji, w której rozważamy błąd w każdym punkcie (xi, yi): Czy rozważamy kilka odpowiedzi (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) dla wejścia xi; i = 1,2, ..., n (liczba punktów danych), a następnie znajdź średnią i wariancję dla wartości yi_j? Jestem tylko zdezorientowany, dlaczego w regresji liniowej y = ax + b, x, y, a (lub wieloliniowy y + a1x1 + a2x2 + ... anxn następnie ai, xi) są zmiennymi losowymi, a nie stałymi wartościami. Czy wykonujemy tę analizę dla każdej pary predyktorów i każdej pary (y, x_i) zy wartości niezależnej?
Gary
Nie rozumiem, o co się mylisz. Dla każdej obserwacji przewidziana jest wartość y oraz rzeczywista wartość y. Resztka to różnica między nimi.
Peter Flom - Przywróć Monikę