Dlaczego mój R-kwadrat jest tak niski, skoro moje statystyki t są tak duże?

18

Przeprowadziłem regresję z 4 zmiennymi i wszystkie są bardzo istotne statystycznie, z wartościami T $\approx 7,9,26$ i $31$ (mówię $\approx$ ponieważ uwzględnienie ułamków dziesiętnych wydaje się nieistotne), które są bardzo wysokie i wyraźnie znaczące. Ale wtedy $R^2$ jest tylko 0,2284. Czy źle interpretuję tutaj wartości t, aby oznaczać coś, czym one nie są? Moją pierwszą reakcją po obejrzeniu wartości t było to, że $R^2$ będzie dość wysoka, ale może to jest wysokiej $R^2$ ?

regression hypothesis-testing econometrics Kyle
źródło

1

Założę się, że twoje

jest umiarkowanie duże, prawda?

n

$n$

Glen_b

@Glen_b tak, około 6000.

Kyle

11

Następnie duże

-statistics jest związany z małą

jest całkowicie godne uwagi. Ponieważ standardowe błędy zmniejszają się o

t

$t$

R^{2}

$R^2$

,

stosunek wzrośnie jako

1 / \sqrt{n}

$1/\sqrt{n}$

t

$t$

, a

będzie na ogół pozostają stałe ze wzrostem

. Dlaczego obchodzi Cię, czym jest

? Dlaczego obchodzi Cię, jakie są współczynniki t?

\sqrt{n}

$\sqrt{n}$

R^{2}

$R^2$

n

$n$

R^{2}

$R^2$

Glen_b

46

W $t$ -values i $R^2$ są wykorzystywane do oceny bardzo różne rzeczy. W $t$ -values są wykorzystywane do oceny dokładności, swojej ESTIMATE $\beta_i$ „s, ale $R^2$ mierzy ilość zmienności zmiennej reakcji wyjaśnia swoimi współzmiennych. Załóżmy, że szacujesz model regresji za pomocą $n$ obserwacji,

Y_{i} = β_{0} + β_{1} X_{1 i} + . . . + β_{k} X_{k i} + ϵ_{i}

$Y_i = \beta_0 + \beta_1X_{1i} + ...+ \beta_kX_{ki}+\epsilon_i$

gdzie $\epsilon_i\overset{i.i.d}{\sim}N(0,\sigma^2)$ , $i=1,...,n$ .

Duże wartości $t$ (w wartości bezwzględnej) prowadzą do odrzucenia hipotezy zerowej, że $\beta_i=0$ . Oznacza to, że możesz być pewien, że poprawnie oszacowałeś znak współczynnika. Także jeśli $|t|$ > 4 i masz $n>5$ , wtedy 0 nie jest w 99% przedziale ufności dla współczynnika. Wartość $t$ dla współczynnika $\beta_i$ jest różnicą między oszacowaniem $\hat{\beta_i}$ a 0 znormalizowanym przez błąd standardowy $se\{\hat{\beta_i}\}$ .

t = \frac{\hat{β_{i}}}{s e {\hat{β_{i}}}}

$t=\frac{\hat{\beta_i}}{se\{\hat{\beta_i}\}}$

który jest po prostu oszacowaniem podzielonym przez miarę jego zmienności. Jeśli masz wystarczająco duży zestaw danych, zawsze będziesz mieć statystycznie istotne (duże) wartości $t$ . Nie oznacza to koniecznie, że twoje zmienne towarzyszące wyjaśniają dużą zmienność zmiennej odpowiedzi.

Jak wspomniano @Stat, $R^2$ mierzy ilość zmienności zmiennej odpowiedzi tłumaczyć zmiennych zależnych. Więcej informacji na temat $R^2$ , przejdź do wikipedii . W twoim przypadku wygląda na to, że masz wystarczająco duży zestaw danych, aby dokładnie oszacować $\beta_i$ , ale twoje zmienne towarzyszące słabo wyjaśniają i \ lub przewidują wartości odpowiedzi.

caburke
źródło

1

(+1) Od samego początku jasne jest, że jest to dobrze przemyślane, pouczające wyjaśnienie.

whuber

Niezła odpowiedź. Uważam, że terminy „znaczenie praktyczne” i „znaczenie statystyczne” często pomagają w myśleniu na ten temat.

Aaron opuścił Stack Overflow

3

Istnieje również prosta transformacja między dwiema statystykami:

R^{2} = \frac{t^{2}}{t^{2} + d f}

$R^2=\frac{t^2}{t^2+df}$

Jeff

8

Mówiąc to samo co caburke, ale prościej, jesteś bardzo przekonany, że średnia odpowiedź wywołana przez twoje zmienne nie jest równa zero. Ale jest wiele innych rzeczy, których nie masz w regresji, które powodują, że reakcja przeskakuje.

użytkownik_ogólny
źródło

0

Może być tak, że chociaż twoje predyktory zmieniają się liniowo pod względem zmiennej odpowiedzi (nachylenie jest znacząco różne od zera), co sprawia, że wartości t są znaczące, ale kwadrat R jest niski, ponieważ błędy są duże, co oznacza, że zmienność w twoje dane są duże, a zatem model regresji nie jest dobrze dopasowany (prognozy nie są tak dokładne)?

Tylko moje 2 centy.

Być może ten post może pomóc: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- wartości

mel
źródło

0

Kilka podanych odpowiedzi jest bliskich, ale wciąż błędnych.

„Wartości t są używane do oceny dokładności twojego oszacowania βi” jest tą, która mnie najbardziej niepokoi.

Wartość T jest jedynie wskaźnikiem prawdopodobieństwa wystąpienia losowego. Duże oznacza mało prawdopodobne. Małe oznacza bardzo prawdopodobne. Pozytywne i negatywne nie mają znaczenia dla interpretacji prawdopodobieństwa.

„R2 mierzy zmienność zmiennej odpowiedzi wyjaśnioną przez zmienne towarzyszące” jest poprawny.

(Skomentowałbym, ale ta platforma nie pozwala mi jeszcze.)

Kevin
źródło

2

Wydaje się, że piszesz o wartościach t tak, jakby były one wartościami p.

whuber

-4

Jedynym sposobem na poradzenie sobie z małym R do kwadratu, sprawdź następujące:

Czy twoja próbka jest wystarczająco duża? Jeśli tak, wykonaj krok 2., ale jeśli nie, zwiększ wielkość próbki.
Ile zmiennych towarzyszących wykorzystałeś do oszacowania modelu? Jeśli więcej niż 1, jak w twoim przypadku, poradzić sobie z problemem wielokoliniowości zmiennych towarzyszących lub po prostu ponownie uruchomić regresję i tym razem bez stałej, która jest znana jako beta zero.
Jeśli jednak problem nadal występuje, wykonaj regresję krokową i wybierz model z wysokim R do kwadratu. Ale których nie mogę ci polecić, ponieważ powoduje to stronniczość w zmiennych towarzyszących

katleho
źródło

Dlaczego mój R-kwadrat jest tak niski, skoro moje statystyki t są tak duże?

Odpowiedzi: