Jest studentizowanymi resztkami v / s standaryzowanymi resztkami w modelu lm

10

Czy „resztki studenckie” i „resztki standaryzowane” są takie same w modelach regresji? Zbudowałem model regresji liniowej w R i chciałem wykreślić wykres dopasowanych wartości reszt studenckich v / s, ale nie znalazłem zautomatyzowanego sposobu na zrobienie tego w R.

Załóżmy, że mam model

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

następnie użycie plot(lm.fit)nie zapewnia żadnego wykresu reszt uczenizowanych względem dopasowanych wartości, ale jednak zapewnia wykres znormalizowanych reszt względem dopasowanych wartości.

Użyłem plot(lm.fit$fitted.values,studres(lm.fit)i wykreśli pożądany wykres, więc po prostu chcę potwierdzić, że idę właściwą drogą, a resztki z uczniami i znormalizowanymi nie są tym samym. Jeśli są one różne, proszę podać przewodnik do ich obliczania i ich definicji. Przeszukałem sieć i stwierdziłem, że jest trochę myląca.

uczeń
źródło
2
+1 Jest to mylące, ponieważ (a) rzeczywiście tego rodzaju pozostałości różnią się, ale (b) różne władze nie zgadzają się, jak je nazwać! Na przykład Rterminologia jest przeciwieństwem Montgomery, Peck i Vining (popularny podręcznik regresji, który istnieje już od 35 lat). Uważaj więc i zapoznaj się z Rdokumentacją oraz, jeśli to konieczne, z jej kodem źródłowym, zamiast polegać na tym, co według ciebie oznacza terminologia.
whuber

Odpowiedzi:

11

Nie, resztki studentizowane i resztki standaryzowane są różnymi (ale pokrewnymi) pojęciami.

R w rzeczywistości zapewnia wbudowane funkcje rstandard()i rstudent()jako część wpływu . Ten sam wbudowany pakiet zapewnia wiele podobnych funkcji dźwigni, odległości Cooka itp. rstudent()Jest zasadniczo taki sam, jak to MASS::studres(), co możesz sprawdzić w ten sposób:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Standaryzowane wartości resztkowe są sposobem oszacowania błędu dla określonego punktu danych, który uwzględnia dźwignię / wpływ punktu. Są to czasem nazywane „resztkami wewnętrznie studenckimi”.

rja=mijas(mija)=mijaM.S.mi(1-hjaja)

Motywacja za znormalizowanymi resztkami polega na tym, że chociaż nasz model zakładał homoscedastyczność ze składnikiem błędu iid ze stałą wariancją ϵjaN.(0,σ2)), rozkład, reszty mija nie można podać, ponieważ suma reszt jest zawsze dokładnie zero.

Studenckie reszty dla dowolnego danego punktu danych są obliczane na podstawie dopasowania modelu do każdego innego punktu danych oprócz tego, o którym mowa. Są one różnie nazywane „zewnętrznie uczonymi resztkami”, „resztkami usuniętymi” lub „resztkami zgrzytanymi”.

Brzmi to trudnie obliczeniowo ( brzmi, jakbyśmy musieli dopasować jeden nowy model do każdego punktu), ale w rzeczywistości istnieje sposób, aby obliczyć go tylko z oryginalnego modelu bez ponownego montażu. Jeśli znormalizowana pozostałość torja, a następnie resztki uczone tja jest:

tja=rja(n-k-2)n-k-1-rja2))1/2),

Motywacja studentów resztek wynika z ich wykorzystania w testach odstających. Jeśli podejrzewamy, że punkt jest wartością odstającą, to z definicji nie został wygenerowany z przyjętego modelu. Dlatego błędem - naruszeniem założeń - byłoby włączenie tej wartości odstającej do dopasowania modelu. Studenckie reszty są szeroko stosowane w praktycznym wykrywaniu wartości odstających.

Studiowane reszty mają również pożądaną właściwość, że dla każdego punktu danych rozkład reszty będzie rozkładem t Studenta, przy założeniu, że spełnione zostały założenia normalności oryginalnego modelu regresji. (Standaryzowane reszty nie mają tak ładnego rozkładu.)

Wreszcie, aby rozwiązać wszelkie obawy, że biblioteka R może być zgodna z nomenklaturą inną niż powyżej, dokumentacja R wyraźnie stwierdza, że ​​używa ona „znormalizowanego” i „uczonego” w dokładnie takim samym znaczeniu, jak opisano powyżej.

Działa rstandardi rstudentdaje odpowiednio znormalizowane i zindeksowane resztki. (Powodują one ponowną normalizację resztek w celu uzyskania wariancji jednostkowej, stosując odpowiednio ogólną i pomijalną miarę wariancji błędu.)

olooney
źródło