Rozważ następującą liczbę z modeli liniowych Faraway z R (2005, s. 59).
Pierwszy wykres wydaje się wskazywać, że reszty i dopasowane wartości są nieskorelowane, ponieważ powinny być w homoscedastycznym modelu liniowym z błędami o rozkładzie normalnym. Dlatego drugi i trzeci wykres, które wydają się wskazywać na zależność między wartościami resztkowymi a dopasowanymi wartościami, sugerują inny model.
Ale dlaczego drugi wykres sugeruje, jak zauważa Faraway, heteroscedastyczny model liniowy, podczas gdy trzeci wykres sugeruje model nieliniowy?
Drugi wykres wydaje się wskazywać, że wartość bezwzględna reszt jest silnie dodatnio skorelowana z dopasowanymi wartościami, podczas gdy żaden trend nie jest widoczny na trzecim wykresie. Gdyby tak było, teoretycznie w heteroscedastycznym modelu liniowym z błędami o rozkładzie normalnym
(gdzie wyrażenie po lewej stronie jest macierzą wariancji-kowariancji między resztami a dopasowanymi wartościami) wyjaśniałoby to, dlaczego wykresy drugi i trzeci zgadzają się z interpretacjami Faraway'a.
Ale czy tak jest w tym przypadku? Jeśli nie, to w jaki inny sposób uzasadnić można interpretację Faraway drugiej i trzeciej fabuły? Ponadto, dlaczego trzeci wykres niekoniecznie wskazuje na nieliniowość? Czy nie jest możliwe, że jest on liniowy, ale że błędy albo nie są normalnie rozłożone, albo że są normalnie rozłożone, ale nie są wyśrodkowane wokół zera?
źródło
Odpowiedzi:
Poniżej znajdują się wykresy rezydualne z przybliżoną średnią i rozproszeniem punktów (granice, które obejmują większość wartości) przy każdej wartości dopasowanej (a zatem ) oznaczonej w przybliżeniu przybliżonej wartości średniej warunkowej (czerwonej) i średniej warunkowej (z grubsza!) dwukrotność warunkowego odchylenia standardowego (fioletowy):x ±
Drugi wykres pokazuje, że średnia wartość resztkowa nie zmienia się wraz z dopasowanymi wartościami (a więc nie zmienia się wraz z ), ale rozprzestrzenianie się reszt (i stąd wokół dopasowanej linii) rośnie, gdy dopasowane wartości (lub ) zmiany. Oznacza to, że spread nie jest stały. Heteroskedastyczność.x y x
trzeci wykres pokazuje, że reszty są w większości ujemne, gdy dopasowana wartość jest mała, dodatnia, gdy dopasowana wartość jest pośrodku, a ujemna, gdy dopasowana wartość jest duża. To znaczy, rozpiętość jest w przybliżeniu stała, ale średnia warunkowa nie jest - dopasowana linia nie opisuje, jak zachowuje się jak zmiany , ponieważ związek jest zakrzywiony.y x
Niezupełnie *, w takich sytuacjach wykresy wyglądają inaczej niż wykres trzeci.
(i) Gdyby błędy były normalne, ale nie były wyśrodkowane na zero, ale w , powiedzmy w, , wówczas przecięcie przechwyciłoby średni błąd, a zatem oszacowany byłby oszacowaniem (to byłby jego wartość oczekiwana, ale jest szacowana z błędem). W rezultacie twoje reszty nadal miałyby warunkową średnią zero, więc wykres wyglądałby jak pierwszy wykres powyżej.θ β0+θ
(ii) Jeśli błędy nie są normalnie rozłożone, wzór kropek może być najgęstszy w innym miejscu niż linia środkowa (gdyby dane były wypaczone), powiedzmy, ale lokalna średnia resztkowa nadal byłaby bliska 0.
Tutaj fioletowe linie nadal reprezentują (bardzo) przedział około 95%, ale nie jest już symetryczny. (Rozmyślam nad kilkoma kwestiami, aby uniknąć zaciemnienia podstawowej kwestii tutaj.)
* To niekoniecznie niemożliwe - jeśli masz „error” termin, który tak naprawdę nie zachowują się jak błędy - powiedzieć, gdzie i są podobne do nich w odpowiedni sposób - może być w stanie produkować wzory coś jak te. Przyjmujemy jednak założenia dotyczące terminu błędu, na przykład, że nie jest on związany na przykład z i ma średnią zero; musielibyśmy złamać przynajmniej niektóre z takich założeń, aby to zrobić. (W wielu przypadkach możesz mieć powód, by stwierdzić, że takie efekty powinny być nieobecne lub przynajmniej stosunkowo niewielkie).x y x
źródło
Napisałeś
Nie wydaje się, że tak. I to właśnie oznacza heteroskedastyka.
Następnie podajesz macierz wszystkich 1, co nie ma znaczenia; korelacja może istnieć i być mniejsza niż 1.
Potem piszesz
Oni zrobić centrum wokół 0. pół lub tak są poniżej 0, połowa powyżej. Trudniej jest stwierdzić, czy są one normalnie rozmieszczone z tego wykresu, ale inny zwykle zalecany wykres to kwantowo-normalny wykres reszt, który pokazuje, czy są one normalne, czy nie.
źródło