Dlaczego mówimy „szczątkowy błąd standardowy”?

14

Błąd standardowy to szacowane odchylenie standardowe estymatora dla parametru .σ^(θ^)θ^θ

Dlaczego szacowane odchylenie standardowe reszt określa się jako „resztkowy błąd standardowy” (np. Na wyjściu funkcji R summary.lm), a nie „resztowe odchylenie standardowe”? Jakie parametry szacunkowe wyposażamy tutaj w standardowy błąd?

Czy uważamy każdą resztę za estymator dla „jego” terminu błędu i szacujemy „zbiorczy” błąd standardowy wszystkich tych estymatorów?

Michael M.
źródło
6
Myślę, że to sprawa R. Nie sądzę, aby inne oprogramowanie koniecznie używa tego sformułowania, a „resztkowe odchylenie standardowe” jest powszechne w podręcznikach, np. Nie mam odpowiedzi, ale zawsze myślałem, że to dziwne, że R używa tego wyrażenia.
Gung - Przywróć Monikę
@gung: to może być wyjaśnienie! Kiedy googluję „resztkowy błąd standardowy” w cytatach, mam tylko 0,1% trafień niż bez cytatów ...
Michael M
Mógłbym to ująć jako (nie) odpowiedź, jeśli wolisz.
Gung - Przywróć Monikę
1
@gung to zabawne, jak używanie określonego oprogramowania kształtuje twoje myślenie: nigdy nie nazwałbym tego „resztkowym sd” - resztki to nie dane, ale błędy, więc błąd resztkowy wydaje się właściwą nazwą. Ale jeśli się nad tym zastanowić, to naprawdę wydaje się rzeczą R.
Tim
2
@ Tymczas, można poprawnie uznać za szacunkowe odchylenie standardowe błędów , ale reszty nie są technicznie samymi błędami. Nie jest to również standardowy błąd błędu SD, co jest tego warte.
Gung - Przywróć Monikę

Odpowiedzi:

12

Myślę, że frazowanie jest specyficzne dla summary.lm()wyjścia R. Zauważ, że podstawowa wartość jest tak naprawdę nazywana „sigma” ( summary.lm()$sigma). Nie sądzę, aby inne oprogramowanie koniecznie używa tej nazwy do standardowego odchylenia reszt. Ponadto sformułowanie „resztkowe odchylenie standardowe” jest na przykład powszechne w podręcznikach. Nie wiem, jak to się stało, że frazowanie zostało użyte w summary.lm()danych wyjściowych R. Ale zawsze myślałem, że to dziwne.

gung - Przywróć Monikę
źródło
Czym się summary.lm(reg)$sigmaróżni sd(reg$residuals)?
nalot
3
@ AndréTerra, poprawne stopnie swobody to n - p, czyli to, czego używa podsumowanie. sd używa var, który wykorzystuje n - 1 stopni swobody. Jeśli ręcznie obliczysz odchylenie standardowe reszt dzielących przez n - p, otrzymasz taką samą odpowiedź, jak w podsumowaniu.
Jdub
3
Aby potwierdzić gung, cytuję w dokumentacji R stats::sigma: Mylny „Resztkowy błąd standardowy” był częścią zbyt wielu wyników R (i S), aby można je tam łatwo zmienić.
NRH
2

Z mojego szkolenia ekonometrycznego nazywa się to „resztkowym błędem standardowym”, ponieważ jest to oszacowanie rzeczywistego „resztkowego odchylenia standardowego”. Zobacz to pokrewne pytanie, które potwierdza tę terminologię.

Wyszukiwarka Google terminu szczątkowy błąd standardowy również pokazuje wiele trafień, więc w żadnym wypadku nie jest to dziwność R. Wypróbowałem oba terminy z cytatami i oba pojawiają się około 60 000 razy.

Heisenberg
źródło
Ciekawy. Ale dlaczego nazwałbyś oszacowanie odchylenia standardowego dowolnej zmiennej losowej (np. Terminem błędu, a nie konkretnym estymatorem) „błędem standardowym”?
Michael M
Uważam, że potrzebujemy nazwy szacunku (aby odróżnić ją od rzeczywistej wartości), każda nazwa jest równie dobra jak inna. Ale na pewno ktoś lepiej znający etymologię może podać lepszy powód. Należy zauważyć, że zdecydowanie istnieje równoległość ze standardowym błędem współczynnika, który jest oszacowaniem standardowego odchylenia współczynnika.
Heisenberg
0

Mówiąc prościej, błąd standardowy próby jest oszacowaniem, jak daleko może być średnia próbki od średniej populacji, podczas gdy standardowe odchylenie próby to stopień, w jakim poszczególne osoby w próbie różnią się od średniej próbki.

Błąd standardowy - Wikipedia, darmowa encyklopedia

użytkownik629019
źródło
6
To prawda, ale tak naprawdę nie odpowiada na pytanie. To, co R nazywa „rezydualnym błędem standardowym”, nie jest „szacunkowym przybliżeniem średniej próby z średniej populacji”.
Gung - Przywróć Monikę
0

Dopasowany model regresji wykorzystuje parametry do generowania prognoz oszacowania punktowego, które są średnimi obserwowanymi odpowiedziami, jeśli powielisz badanie z tymi samymi wartościami XX nieskończoną liczbę razy ( gdy model liniowy jest prawdziwy ).

Różnica między tymi przewidywanymi wartościami a wartościami zastosowanymi do dopasowania modelu nazywa się „ Resztkami ”, które podczas replikacji procesu gromadzenia danych mają właściwości zmiennych losowych o wartości 0. Zaobserwowane pozostałości są następnie wykorzystywane do późniejszego oszacowania zmienności tych wartości i do oszacowania rozkładu próbkowania parametrów.

Uwaga:

Gdy rezydualny błąd standardowy wynosi dokładnie 0, wówczas model idealnie pasuje do danych (prawdopodobnie z powodu przeregulowania).

Jeśli nie można wykazać, że rezydualny błąd standardowy różni się znacząco od zmienności bezwarunkowej odpowiedzi, wówczas niewiele jest dowodów na to, że model liniowy ma jakąkolwiek zdolność predykcyjną.

Abhishek Jaiswal
źródło