Jak interpretować współczynniki błędów standardowych w regresji liniowej?

26

Zastanawiam się, jak interpretować współczynniki błędów standardowych regresji przy użyciu funkcji wyświetlania w R.

Na przykład w następującym wyniku:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Czy błąd o wyższym standardzie oznacza większe znaczenie?

Również dla rezydualnego odchylenia standardowego wyższa wartość oznacza większy spread, ale kwadrat R wykazuje bardzo ścisłe dopasowanie, czy nie jest to sprzeczność?

powyżej
źródło

Odpowiedzi:

52

Szacunki parametrów, takie jak średnia próbki lub współczynnik regresji OLS, są przykładowymi statystykami, których używamy do wyciągania wniosków na temat odpowiednich parametrów populacji. Parametry populacji są tym, na czym nam naprawdę zależy, ale ponieważ nie mamy dostępu do całej populacji (zwykle uważanej za nieskończoną), musimy zamiast tego zastosować to podejście. Istnieją jednak pewne niewygodne fakty związane z takim podejściem. Na przykład, jeśli weźmiemy inną próbkę i obliczymy statystyki, aby ponownie oszacować parametr, prawie na pewno stwierdzilibyśmy, że różni się on. Co więcej, żadne oszacowanie prawdopodobnie nie zgadza się z prawdziwą wartością parametru, którą chcemy poznać. W rzeczywistości, jeśli robimy to w kółko, nadal próbujemy i oceniamy na zawsze, stwierdzilibyśmy, że względna częstotliwość różnych wartości szacunkowych była zgodna z rozkładem prawdopodobieństwa. Twierdzenie o granicy centralnej sugeruje, że ten rozkład prawdopodobnie będzie normalny. Potrzebujemy sposobu na oszacowanie ilości niepewności w tym rozkładzie. To właśnie robi dla ciebie standardowy błąd.

W twoim przykładzie chcesz poznać nachylenie zależności liniowej między x1 iy w populacji, ale masz dostęp tylko do próbki. W twojej próbce nachylenie wynosi 0,51, ale nie wiedząc, jak duża jest zmienność w odpowiadającym mu rozkładzie próbkowania , trudno jest ustalić, co zrobić z tą liczbą. Błąd standardowy, w tym przypadku 0,05, jest odchyleniem standardowym tego rozkładu próbkowania. Aby obliczyć istotność, dzielisz oszacowanie przez SE i sprawdzasz iloraz w tabeli. Zatem większe SE oznaczają mniejsze znaczenie.

Pozostałe odchylenie standardowe nie ma nic wspólnego z rozkładem próbkowania twoich zboczy. Jest to tylko standardowe odchylenie próbki zależne od modelu. Nie ma sprzeczności ani nie może być. Jeśli chodzi o to, jak masz większy SD z wysokim R ^ 2 i tylko 40 punktami danych, sądzę, że masz przeciwieństwo ograniczenia zakresu - twoje wartości x są bardzo szeroko rozłożone.

gung - Przywróć Monikę
źródło
Doskonała i bardzo jasna odpowiedź! Więc w zasadzie dla drugiego pytania SD wskazuje poziomą dyspersję, a R ^ 2 wskazuje ogólne dopasowanie lub pionową dyspersję?
powyżej
7
@Dbr, chętnie pomogę. Zwykle myślimy, że zmienna odpowiedzi jest na osi pionowej, a zmienna predykcyjna na osi poziomej. W tej konfiguracji wszystko jest pionowe - regresja minimalizuje odległości pionowe między predykcjami a zmienną odpowiedzi (SSE). Podobnie resztkowa SD jest miarą dyspersji pionowej po uwzględnieniu przewidywanych wartości. Wreszcie, R ^ 2 jest stosunkiem rozproszenia pionowego twoich prognoz do całkowitego rozproszenia pionowego twoich surowych danych.
gung - Przywróć Monikę