Eksperymentowałem z zależnością między błędami a resztkami, używając kilku prostych symulacji w R. Jedną z rzeczy, które znalazłem, jest to, że niezależnie od wielkości próbki lub wariancji błędu zawsze otrzymuję dokładnie dla nachylenia, gdy dopasujesz model
Oto przeprowadzona przeze mnie symulacja:
n <- 10
s <- 2.7
x <- rnorm(n)
e <- rnorm(n,sd=s)
y <- 0.3 + 1.2*x + e
model <- lm(y ~ x)
r <- model$res
summary( lm(e ~ r) )
e
i r
są wysoce (ale nie idealnie) skorelowane, nawet w przypadku małych próbek, ale nie mogę zrozumieć, dlaczego tak się dzieje automatycznie. Docenione byłoby matematyczne lub geometryczne wyjaśnienie.
regression
least-squares
residuals
GoF_Logistic
źródło
źródło
lm(y~r)
,lm(e~r)
ilm(r~r)
, które w związku z tym muszą być wszystkie takie same. Ten ostatni to oczywiście . Wypróbuj wszystkie trzy z tych poleceń, aby zobaczyć. Aby ostatni działał , musisz utworzyć kopię , na przykład . Aby uzyskać więcej informacji na temat geometrycznych diagramów regresji, zobacz stats.stackexchange.com/a/113207 .R
r
s<-r;lm(r~s)
Odpowiedzi:
odpowiedź Whubera jest świetna! (+1) Rozwiązałem problem przy użyciu najbardziej znanej mi notacji i doszedłem do wniosku, że (mniej interesujące, bardziej rutynowe) wyprowadzenie może być warte włączenia tutaj
Niech być modelu regresji dla X ∈ R n × p i ε hałasu. Następnie regresji Y z kolumny X ma normalne równania X T ( Y - X β ) = 0 , w wyniku czego otrzymano oszacowaniay=Xβ∗+ϵ X∈Rn×p ϵ y X XT(y−Xβ^)=0,
Cofnięcie na r daje oszacowane nachylenie podane przez ( r T r ) - 1 r T ϵϵ r
ponieważI-Hjest symetryczny i idempotentny, aϵ∉im(X)prawie na pewno.
Ponadto ten argument obowiązuje również wtedy, gdy uwzględniamy przecięcie, gdy wykonujemy regresję błędów na resztach, jeśli przecięcie było uwzględnione w pierwotnej regresji, ponieważ zmienne towarzyszące są ortogonalne (tj. , z równań normalnych) .1Tr=0
źródło
Bez utraty ogólności pojęciowej (lub praktycznej) najpierw usuń stałą ze zmiennych, jak opisano w Jak dokładnie jedna „kontroluje inne zmienne” . Niech będzie regresorem, e błąd, Y = β x + e odpowiedź, b szacunek najmniejszych kwadratów β , a r = Y - b x reszt. Wszystkie te wektory leżą na tej samej płaszczyźnie, co pozwala nam rysować ich obrazy. Sytuację można przedstawić w następujący sposób, gdzie O oznacza pochodzenie:x e Y=βx+e b β r=Y−bx O
źródło