Dlaczego mój R-kwadrat jest tak niski, skoro moje statystyki t są tak duże?

18

Przeprowadziłem regresję z 4 zmiennymi i wszystkie są bardzo istotne statystycznie, z wartościami T 7,9,26 i 31 (mówię ponieważ uwzględnienie ułamków dziesiętnych wydaje się nieistotne), które są bardzo wysokie i wyraźnie znaczące. Ale wtedy R2 jest tylko 0,2284. Czy źle interpretuję tutaj wartości t, aby oznaczać coś, czym one nie są? Moją pierwszą reakcją po obejrzeniu wartości t było to, że R2 będzie dość wysoka, ale może to jest wysokiej R2 ?

Kyle
źródło
1
Założę się, że twoje jest umiarkowanie duże, prawda? n
Glen_b
@Glen_b tak, około 6000.
Kyle
11
Następnie duże -statistics jest związany z małą R 2 jest całkowicie godne uwagi. Ponieważ standardowe błędy zmniejszają się o 1 / tR2 ,t-stosunek wzrośnie jako1/nt , aR2,będzie na ogół pozostają stałe ze wzrostemn. Dlaczego obchodzi Cię, czym jestR2? Dlaczego obchodzi Cię, jakie są współczynniki t? nR2nR2
Glen_b

Odpowiedzi:

46

W t -values i R2 są wykorzystywane do oceny bardzo różne rzeczy. W t -values są wykorzystywane do oceny dokładności, swojej ESTIMATE βi „s, ale R2 mierzy ilość zmienności zmiennej reakcji wyjaśnia swoimi współzmiennych. Załóżmy, że szacujesz model regresji za pomocą n obserwacji,

Yi=β0+β1X1i+...+βkXki+ϵi

gdzie ϵii.i.dN(0,σ2) , i=1,...,n .

Duże wartości t (w wartości bezwzględnej) prowadzą do odrzucenia hipotezy zerowej, że βi=0 . Oznacza to, że możesz być pewien, że poprawnie oszacowałeś znak współczynnika. Także jeśli |t|> 4 i masz n>5 , wtedy 0 nie jest w 99% przedziale ufności dla współczynnika. Wartość t dla współczynnika βi jest różnicą między oszacowaniem βi^ a 0 znormalizowanym przez błąd standardowy se{βi^} .

t=βi^se{βi^}

który jest po prostu oszacowaniem podzielonym przez miarę jego zmienności. Jeśli masz wystarczająco duży zestaw danych, zawsze będziesz mieć statystycznie istotne (duże) wartości t . Nie oznacza to koniecznie, że twoje zmienne towarzyszące wyjaśniają dużą zmienność zmiennej odpowiedzi.

Jak wspomniano @Stat, R2 mierzy ilość zmienności zmiennej odpowiedzi tłumaczyć zmiennych zależnych. Więcej informacji na temat R2 , przejdź do wikipedii . W twoim przypadku wygląda na to, że masz wystarczająco duży zestaw danych, aby dokładnie oszacować βi , ale twoje zmienne towarzyszące słabo wyjaśniają i \ lub przewidują wartości odpowiedzi.

caburke
źródło
1
(+1) Od samego początku jasne jest, że jest to dobrze przemyślane, pouczające wyjaśnienie.
whuber
Niezła odpowiedź. Uważam, że terminy „znaczenie praktyczne” i „znaczenie statystyczne” często pomagają w myśleniu na ten temat.
Aaron opuścił Stack Overflow
3
Istnieje również prosta transformacja między dwiema statystykami: R2=t2t2+df
Jeff
8

Mówiąc to samo co caburke, ale prościej, jesteś bardzo przekonany, że średnia odpowiedź wywołana przez twoje zmienne nie jest równa zero. Ale jest wiele innych rzeczy, których nie masz w regresji, które powodują, że reakcja przeskakuje.

użytkownik_ogólny
źródło
0

Może być tak, że chociaż twoje predyktory zmieniają się liniowo pod względem zmiennej odpowiedzi (nachylenie jest znacząco różne od zera), co sprawia, że ​​wartości t są znaczące, ale kwadrat R jest niski, ponieważ błędy są duże, co oznacza, że ​​zmienność w twoje dane są duże, a zatem model regresji nie jest dobrze dopasowany (prognozy nie są tak dokładne)?

Tylko moje 2 centy.

Być może ten post może pomóc: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- wartości

mel
źródło
0

Kilka podanych odpowiedzi jest bliskich, ale wciąż błędnych.

„Wartości t są używane do oceny dokładności twojego oszacowania βi” jest tą, która mnie najbardziej niepokoi.

Wartość T jest jedynie wskaźnikiem prawdopodobieństwa wystąpienia losowego. Duże oznacza mało prawdopodobne. Małe oznacza bardzo prawdopodobne. Pozytywne i negatywne nie mają znaczenia dla interpretacji prawdopodobieństwa.

„R2 mierzy zmienność zmiennej odpowiedzi wyjaśnioną przez zmienne towarzyszące” jest poprawny.

(Skomentowałbym, ale ta platforma nie pozwala mi jeszcze.)

Kevin
źródło
2
Wydaje się, że piszesz o wartościach t tak, jakby były one wartościami p.
whuber
-4

Jedynym sposobem na poradzenie sobie z małym R do kwadratu, sprawdź następujące:

  1. Czy twoja próbka jest wystarczająco duża? Jeśli tak, wykonaj krok 2., ale jeśli nie, zwiększ wielkość próbki.
  2. Ile zmiennych towarzyszących wykorzystałeś do oszacowania modelu? Jeśli więcej niż 1, jak w twoim przypadku, poradzić sobie z problemem wielokoliniowości zmiennych towarzyszących lub po prostu ponownie uruchomić regresję i tym razem bez stałej, która jest znana jako beta zero.

  3. Jeśli jednak problem nadal występuje, wykonaj regresję krokową i wybierz model z wysokim R do kwadratu. Ale których nie mogę ci polecić, ponieważ powoduje to stronniczość w zmiennych towarzyszących

katleho
źródło