Dlaczego standardowy błąd przechwytywania zwiększa się o dalsze

13

Standardowy błąd terminu przechwytującego ( ) w jest podawany przez gdzie to średnia z .y=β1x+β0+εSE( β 0)2=σ2[1β^0y=β1x+β0+εˉxxi

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

Z tego, co rozumiem, SE określa twoją niepewność - na przykład w 95% próbek przedział będzie zawierał true . Nie rozumiem, w jaki sposób SE, miara niepewności, rośnie z . Jeśli po prostu zmienię dane, aby , moja niepewność spadła? To wydaje się nieracjonalne.β 0 ˉ x ˉ x = 0[β^02SE,β^0+2SE]β0x¯x¯=0

Analogiczną interpretacją jest - w nieośrodkowej wersji moich danych odpowiada mojej prognozie dla , podczas gdy w danych wyśrodkowanych odpowiada mojej prognozie dla . Czy to zatem oznacza, że ​​moja niepewność co do mojej prognozy przy jest większa niż moja niepewność co do mojej prognozy przy ? To również wydaje się nieuzasadnione, błąd ma tę samą wariancję dla wszystkich wartości , więc moja niepewność w moich przewidywanych wartościach powinna być taka sama dla wszystkich .x=0 β 0x= ˉ x x=0x= ˉ x εxxβ^0x=0β^0x=x¯x=0x=x¯ϵxx

Jestem pewien, że istnieją luki w moim rozumieniu. Czy ktoś mógłby mi pomóc zrozumieć, co się dzieje?

elexhobby
źródło
3
Czy kiedykolwiek zdarzyło Ci się cofnąć coś w stosunku do daty? Wiele systemów komputerowych zaczyna swoje daty w odległej przeszłości, często ponad 100 lub ponad 2000 lat temu. Punkt przecięcia szacuje wartość danych ekstrapolowanych wstecz do tego czasu początkowego. Jak możesz być pewien, powiedzmy, produktu krajowego brutto Iraku w roku 0 CE na podstawie regresji danych z XXI wieku?
whuber
Zgadzam się, to ma sens, jeśli pomyślisz o tym w ten sposób. To i odpowiedź Gunga wyjaśniają wszystko.
elexhobby
2
Ta odpowiedź daje intuicyjne wyjaśnienie, wraz ze schematami), w jaki sposób powstaje, rzucając dopasowaną linię pod względem dopasowania na średnią (dopasowana linia przechodzi przez ) i pokazuje, dlaczego pozycja, w której może przejść linia, rozkłada się, gdy odsuwasz się od (co jest spowodowane niepewnością na zboczu). ( ˉ x , ˉ y ) ˉ xx¯(x¯,y¯)x¯
Glen_b

Odpowiedzi:

16

Ponieważ linia regresji dopasowana do zwykłych najmniejszych kwadratów musi koniecznie przejść przez średnią twoich danych (tj. ) - przynajmniej tak długo, jak nie tłumisz przecięcia - niepewność co do prawdziwej wartości nachylenia nie ma wpływu na pionowe położenie linii na środku (tj. w ). Przekłada się to na mniejszą niepewność pionową w niż jesteś dalej od którym jesteś. Jeśli punkt przecięcia, gdzie to , zminimalizuje to twoją niepewność co do prawdziwej wartościx(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. Z matematycznego punktu widzenia przekłada się to na najmniejszą możliwą wartość standardowego błędu dla . β^0

Oto szybki przykład w R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

wprowadź opis zdjęcia tutaj

Ta liczba jest nieco zajęta, ale możesz zobaczyć dane z kilku różnych badań, w których rozkład był bliższy lub większy od . Stoki różnią się nieco między badaniami, ale są w dużej mierze podobne. (Zauważ, że wszystkie przechodzą przez kółko X, które oznaczyłem .) Niemniej jednak niepewność co do prawdziwej wartości tych nachyleń powoduje, że niepewność co do rozszerza się w miarę, jak dalej , co oznacza, że jest bardzo szeroki dla danych, które próbkowano w sąsiedztwie , i bardzo wąski dla badania, w którym dane były próbkowane w pobliżu . x0(x¯,y¯)y^x¯SE(β^0)x=10x=0


Edytuj w odpowiedzi na komentarz: Niestety, wyśrodkowanie danych po ich uzyskaniu nie pomoże, jeśli chcesz poznać prawdopodobną wartość przy pewnej wartości . Zamiast tego musisz przede wszystkim skoncentrować gromadzenie danych na tym, na czym Ci zależy. Aby lepiej zrozumieć te problemy, możesz przeczytać moją odpowiedź tutaj: Interwał przewidywania regresji liniowej . yxxnew

gung - Przywróć Monikę
źródło
Powiedzmy z jakiegoś powodu, że najbardziej interesuje mnie przewidywanie o wartości . Powyższe wyjaśnienie sugeruje, że nie powinienem wyśrodkowywać moich danych (tj. Przesunąć , aby ), ale zamiast tego przesunąć je tak, aby . Czy to jest poprawne? x=xxx¯=0x¯=x
elexhobby
Ogólna formuła ma w liczniku zamiast : przesunięcie nie jest potrzebne. (xx¯)2x¯2
whuber
@elexhobby, dodałem trochę informacji, aby odpowiedzieć na twój komentarz, możesz też zajrzeć do połączonego materiału. Daj mi znać, jeśli nadal potrzebujesz więcej.
gung - Przywróć Monikę
Oto jak rozumiem - czytam gdzie indziej, że . Teraz błąd w przewidywanej wartości powodu tej niepewności na zboczu wynosi . Ponadto błąd spowodowany niepewnością w pionowym położeniu linii to . Połącz je razem, a otrzymamy niepewność w przewidywanej wartości z powodu niepewności w i is . Popraw mnie, jeśli się mylę. SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2β 1 β 0σ2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2
elexhobby
1
Ponadto jasne jest, dlaczego błąd w pozycji pionowej to - wiemy, że linia musi przejść przez przy . Teraz zawiera średnią z błędów i dlatego będzie miał SE równe . Łał! Bardzo dziękuję za twój schemat i jasne wyjaśnienie, naprawdę doceniam. ˉ y x= ˉ x ˉ y nσ2σ2ny¯x=x¯y¯nσ2n
elexhobby