Standardowe błędy dla wielu współczynników regresji?

18

Zdaję sobie sprawę, że to bardzo podstawowe pytanie, ale nigdzie nie mogę znaleźć odpowiedzi.

Obliczam współczynniki regresji przy użyciu równań normalnych lub rozkładu QR. Jak obliczyć standardowe błędy dla każdego współczynnika? Zwykle myślę, że standardowe błędy są obliczane jako:

SEx¯ =σx¯n

Co to jest dla każdego współczynnika? Jaki jest najskuteczniejszy sposób obliczenia tego w kontekście OLS?σx¯

Belmont
źródło

Odpowiedzi:

19

Podczas szacowania metodą najmniejszych kwadratów (przy założeniu normalnej składowej losowej) szacunki parametru regresji są zwykle rozkładane ze średnią równą parametrowi regresji rzeczywistej i macierzy kowariancji gdzie jest wariancją resztkową, a jest matrycą projektową. jest transpozycją a jest zdefiniowane przez równanie modelu z parametrami regresji, a jest terminem błędu. Szacowane odchylenie standardowe parametru beta uzyskuje się, przyjmując odpowiedni termin w s 2 X T X X T X X Y = X β + ϵ β ϵ ( X T X ) - 1Σ=s2)(XT.X)-1s2)XT.XXT.XXY=Xβ+ϵβϵ(XTX)1pomnożenie go przez oszacowanie próbki wariancji rezydualnej, a następnie przyjęcie pierwiastka kwadratowego Nie jest to bardzo proste obliczenie, ale każdy pakiet oprogramowania obliczy go i dostarczy w wyniku.

Przykład

Na stronie 134 Draper and Smith (przywołane w moim komentarzu) podają następujące dane do dopasowania modelu gdzie \ varepsilon \ sim N (0, \ mathbb {I } \ sigma ^ 2) .ε N ( 0 , I σ 2 )Y=β0+β1X+εεN(0,Iσ2)

                      X                      Y                    XY
                      0                     -2                     0
                      2                      0                     0
                      2                      2                     4
                      5                      1                     5
                      5                      3                    15
                      9                      1                     9
                      9                      0                     0
                      9                      0                     0
                      9                      1                     9
                     10                     -1                   -10
                    ---                     --                   ---
Sum                  60                      5                    32
Sum of  Squares     482                     21                   528

Wygląda na przykład, w którym nachylenie powinno być bliskie 0.

Xt=(111111111102255999910).

Więc

XtX=(nXiXiXi2)=(106060482)

i

(XtX)1=(Xja2)n(Xja-X¯)2)-X¯(Xja-X¯)2)-X¯(Xja-X¯)2)1(Xja-X¯)2))=(48210(122)-6122-61221122)=(0,395-0,049-0,0490,008)

gdzie .X¯=Xja/n=60/10=6

Oszacowanie dla = (b0) = (Yb-b1 Xb) b1 Sxy / Sxxβ=(XTX)1XTY

b1 = 1/61 = 0,0163 i b0 = 0,5-0,0163 (6) = 0,402

Od powyżej Sb1 = Se (0,008) i Sb0 = Se (0,395), gdzie Se jest szacowanym odchyleniem standardowym dla składnika błędu. Se = √2,3085.(XTX)1

Przepraszam, że równania nie zawierały indeksowania dolnego i górnego, kiedy je wycinałem i wklejałem. Tabela również nie odtwarzała się dobrze, ponieważ spacje zostały zignorowane. Pierwszy ciąg 3 liczb odpowiada pierwszym wartościom XY i XY i jest taki sam dla kolejnych trzech ciągów. Po Sumie pojawiają się sumy odpowiednio dla XY i XY, a następnie suma kwadratów odpowiednio dla XY i XY. Macierze 2x2 też się popsuły. Wartości po nawiasach powinny znajdować się w nawiasach pod liczbami po lewej stronie.

Michael R. Chernick
źródło
2
Nie mam na myśli wtyczki do mojej książki, ale przechodzę przez obliczenia rozwiązania najmniejszych kwadratów w prostej regresji liniowej (Y = aX + b) i obliczam standardowe błędy dla aib, str. 101-103, The Essentials of Biostatistics dla lekarzy, pielęgniarek i lekarzy, Wiley 2011. bardziej szczegółowy opis można znaleźć w Draper and Smith Applied Regression Analysis 3rd Edition, Wiley New York 1998, str. 126-127. W poniższej odpowiedzi wezmę przykład od Drapera i Smitha.
Michael R. Chernick,
8
Kiedy zacząłem wchodzić w interakcje z tą witryną, Michael, miałem podobne odczucia. Z doświadczeniem uległy zmianie. Warto znać trochę a kiedy już to zrobisz, jest (prawie) tak szybkie, aby wpisać to, co jest w języku angielskim. Nauczyłem się również, studiując przykładowe posty (takie jak wiele odpowiedzi @chl, kardynał i inni użytkownicy o wysokiej reputacji na post), że dostarczanie referencji, jasnych ilustracji i przemyślanych równań jest zwykle bardzo cenione i dobrze Odebrane. Wysoka jakość to jedna rzecz odróżniająca tę stronę od większości innych. T.miX
whuber
2
To wszystko fajnie, Bill i fajnie, że tylu ludzi poświęca się oferowaniu wysokiej jakości postów. Mogę używać lateksu do innych celów, takich jak publikowanie artykułów. Ale nie mam czasu, aby podjąć wysiłek, którego ludzie oczekują ode mnie na tej stronie. Nie zamierzam poświęcać czasu tylko na świadczenie usług na tej stronie.
Michael R. Chernick
4
Myślę, że rozłączenie jest tutaj: „To tylko jedna z wielu rzeczy w tej witrynie, która wymaga od postów poświęcenia dodatkowego czasu i wysiłku” - @whuber i ja mówimy, że w rzeczywistości nie zajmuje to więcej czasu, jeśli wiesz jak to zrobić. Nie uczymy się , abyśmy mogli publikować posty na tej stronie - my (przynajmniej ja) uczymy się ponieważ jest to ważna umiejętność jako statystyka i sprawia, że ​​posty są znacznie bardziej czytelne na tej stronie. TEXTEX
Makro
3
Tak jak wielu ludzi tutaj, tak, pracuję jako statystyk, ale zdarza mi się też, że jest fajnie - ta strona jest dla mnie rekreacyjna i jest fajnym dodatkiem, że inni uważają moje posty za przydatne. Jeśli zauważysz, że zaznaczanie swoich równań jest pracą i nie uważasz, że warto się uczyć, niech tak będzie, ale wiedz, że niektóre z twoich treści zostaną pominięte. T.miX
Makro