Co to jest pozostały błąd standardowy?

35

Podczas uruchamiania modelu regresji wielokrotnej w R jednym z wyjść jest resztkowy błąd standardowy wynoszący 0,0589 przy 95161 stopniach swobody. Wiem, że 95.161 stopni swobody wynika z różnicy między liczbą obserwacji w mojej próbce a liczbą zmiennych w moim modelu. Jaki jest pozostały błąd standardowy?

ustroetz
źródło
2
To pytanie i odpowiedzi mogą pomóc: Dlaczego mówimy o szczątkowym błędzie standardowym?
Antoine Vernet
Szybkie pytanie: czy „resztkowy błąd standardowy” jest taki sam jak „resztkowy odchylenie standardowe”? Gelman i Hill (s. 41, 2007) wydają się używać ich zamiennie.
JetLag

Odpowiedzi:

26

Dopasowany model regresji wykorzystuje parametry do generowania prognoz oszacowania punktowego, które są średnimi obserwowanymi odpowiedziami, jeśli powielisz badanie z tymi samymi wartościami nieskończoną liczbę razy (i gdy model liniowy jest prawdziwy). Różnica między tymi przewidywanymi wartościami a wartościami zastosowanymi do dopasowania modelu nazywa się „resztkami”, które podczas replikacji procesu gromadzenia danych mają właściwości zmiennych losowych o wartości 0.X

Zaobserwowane pozostałości są następnie wykorzystywane do późniejszego oszacowania zmienności tych wartości i do oszacowania rozkładu próbkowania parametrów. Gdy rezydualny błąd standardowy wynosi dokładnie 0, model idealnie pasuje do danych (prawdopodobnie z powodu przeszacowania). Jeśli nie można wykazać, że rezydualny błąd standardowy różni się znacząco od zmienności bezwarunkowej odpowiedzi, wówczas niewiele jest dowodów na to, że model liniowy ma jakąkolwiek zdolność predykcyjną.

AdamO
źródło
3
Być może na to wcześniej odpowiedziano. Sprawdź, czy to pytanie zawiera odpowiedzi, których potrzebujesz. [Interpretacja wyniku Rm lm ()] [1] [1]: stats.stackexchange.com/questions/5135/…
doug.numbers
26

Powiedzmy, że mamy następującą tabelę ANOVA (dostosowaną z example(aov)polecenia R ):

          Df Sum Sq Mean Sq F value Pr(>F)
Model      1   37.0   37.00   0.483  0.525
Residuals  4  306.3   76.57               

Jeśli podzielisz sumę kwadratów z dowolnego źródła zmienności (modelu lub reszt) przez odpowiednie stopnie swobody, otrzymasz średni kwadrat. W szczególności dla pozostałości:

306.34=76.57576.57

A zatem 76,57 jest średnim kwadratem reszt, tj. Ilością zmian resztkowych (po zastosowaniu modelu) zmiennej zmiennej odpowiedzi.

76.57

Waldir Leoncio
źródło
1
Głosowałem za odpowiedzią od @AdamO, ponieważ jako osoba, która najczęściej stosuje regresję, odpowiedź ta była dla mnie najprostsza. Doceniam jednak tę odpowiedź, ponieważ ilustruje ona notacyjną / konceptualną / metodologiczną zależność między ANOVA a regresją liniową.
svannoy
12

Y=β0+β1X+ϵ
ϵX

β0β1ϵϵ

RSE wyjaśniono dość wyraźnie w „Wprowadzenie do uczenia statystycznego”.

mały potwór
źródło
2
ϵRSE=RSS(n2)
1
Dla każdego, kto czyta epub ISL, możesz znaleźć „stronę 66” z ctrl-f „szczątkowym błędem standardowym”. (Pliki Epub nie mają prawdziwych numerów stron).
user2426679