Standardowy błąd terminu przechwytującego ( ) w jest podawany przez gdzie to średnia z .y=β1x+β0+εSE( β 0)2=σ2[1ˉxxi
Z tego, co rozumiem, SE określa twoją niepewność - na przykład w 95% próbek przedział będzie zawierał true . Nie rozumiem, w jaki sposób SE, miara niepewności, rośnie z . Jeśli po prostu zmienię dane, aby , moja niepewność spadła? To wydaje się nieracjonalne.β 0 ˉ x ˉ x = 0
Analogiczną interpretacją jest - w nieośrodkowej wersji moich danych odpowiada mojej prognozie dla , podczas gdy w danych wyśrodkowanych odpowiada mojej prognozie dla . Czy to zatem oznacza, że moja niepewność co do mojej prognozy przy jest większa niż moja niepewność co do mojej prognozy przy ? To również wydaje się nieuzasadnione, błąd ma tę samą wariancję dla wszystkich wartości , więc moja niepewność w moich przewidywanych wartościach powinna być taka sama dla wszystkich .x=0 β 0x= ˉ x x=0x= ˉ x εxx
Jestem pewien, że istnieją luki w moim rozumieniu. Czy ktoś mógłby mi pomóc zrozumieć, co się dzieje?
źródło
Odpowiedzi:
Ponieważ linia regresji dopasowana do zwykłych najmniejszych kwadratów musi koniecznie przejść przez średnią twoich danych (tj. ) - przynajmniej tak długo, jak nie tłumisz przecięcia - niepewność co do prawdziwej wartości nachylenia nie ma wpływu na pionowe położenie linii na środku (tj. w ). Przekłada się to na mniejszą niepewność pionową w niż jesteś dalej od którym jesteś. Jeśli punkt przecięcia, gdzie to , zminimalizuje to twoją niepewność co do prawdziwej wartościx(x¯,y¯) x y^x¯ x¯ x¯ x=0 x¯ β0 . Z matematycznego punktu widzenia przekłada się to na najmniejszą możliwą wartość standardowego błędu dla . β^0
Oto szybki przykład w
R
:Ta liczba jest nieco zajęta, ale możesz zobaczyć dane z kilku różnych badań, w których rozkład był bliższy lub większy od . Stoki różnią się nieco między badaniami, ale są w dużej mierze podobne. (Zauważ, że wszystkie przechodzą przez kółko X, które oznaczyłem .) Niemniej jednak niepewność co do prawdziwej wartości tych nachyleń powoduje, że niepewność co do rozszerza się w miarę, jak dalej , co oznacza, że jest bardzo szeroki dla danych, które próbkowano w sąsiedztwie , i bardzo wąski dla badania, w którym dane były próbkowane w pobliżu .x 0 (x¯,y¯) y^ x¯ SE(β^0) x=10 x=0
Edytuj w odpowiedzi na komentarz: Niestety, wyśrodkowanie danych po ich uzyskaniu nie pomoże, jeśli chcesz poznać prawdopodobną wartość przy pewnej wartości . Zamiast tego musisz przede wszystkim skoncentrować gromadzenie danych na tym, na czym Ci zależy. Aby lepiej zrozumieć te problemy, możesz przeczytać moją odpowiedź tutaj: Interwał przewidywania regresji liniowej .y x xnew
źródło