Dlaczego możliwe jest uzyskanie istotnej statystyki F (p <0,001), ale nieistotnych testów t regresora?

70

Dlaczego w wielokrotnej regresji liniowej możliwe jest uzyskanie bardzo istotnej statystyki F (p <0,001), ale bardzo wysokich wartości p we wszystkich testach t regresora?

W moim modelu jest 10 regresorów. Jeden ma wartość p 0,1, a reszta jest powyżej 0,9


Aby poradzić sobie z tym problemem, patrz pytanie uzupełniające .

Ηλίας
źródło
2
Czy stała jest również nieznaczna? Ile spraw dotyczy? Ile zmiennych?
whuber
Jak zdiagnozowano wielokoliniowość? Istnieje wiele metod, niektóre są bardziej pouczające niż inne. Im więcej nam powiesz, tym lepiej społeczność będzie mogła odpowiedzieć.
StasK
3
To pytanie stało się FAQ. Niektóre odpowiedzi tutaj zostały scalone z zasadniczo podobnych wątków.
whuber
Miałem ten sam problem i brak odpowiedzi powyżej może mi pomóc. Teraz znam odpowiedź (przynajmniej na mój problem): wartość F modelu 2 może być znacząca, ponieważ masz taką samą „stałą” (zmienną) jak w modelu 1 (która również jest znacząca). Musisz spojrzeć na tabelę o nazwie „Podsumowanie modelu” w kolumnie „Sig. F Zmień ”, aby zobaczyć, czy zmiana R do kwadratu jest znacząca (dla modelu 2). Jeśli ta jest znacząca, wartości b również powinny być znaczące. Możesz całkowicie zignorować wartość F.

Odpowiedzi:

53

Jak wspomina Rob, dzieje się tak, gdy masz wysoce skorelowane zmienne. Standardowym przykładem, którego używam, jest przewidywanie masy na podstawie rozmiaru buta. Równie dobrze możesz przewidzieć masę przy użyciu prawego lub lewego rozmiaru buta. Ale razem to nie działa.

Krótki przykład symulacji

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))
csgillespie
źródło
9
Warto zauważyć, że w tym przypadku oba modele przewidują równie dobrze. Wysokie korelacje między predyktorami niekoniecznie stanowią problem przy prognozowaniu. Wieloliniowość jest problemem tylko wtedy, gdy 1) analitycy próbują niewłaściwie interpretować współczynniki regresji wielokrotnej; 2) model jest nie do oszacowania; oraz 3) SE są zawyżone, a współczynniki są niestabilne.
Brett,
Rozumiem, że te dwie zmienne są ze sobą wysoce skorelowane, dlatego wynik testu t jest nieistotny, a wynik testu F. jest znaczący. Ale jak to się dzieje? To znaczy, z jakiego powodu leży ten fakt?
yue86231
105

Powoduje to bardzo małą korelację między zmiennymi niezależnymi.

Aby zobaczyć dlaczego, spróbuj wykonać następujące czynności:

  • Narysuj 50 zestawów dziesięciu wektorów o współczynnikach iid standard normal.(x1,x2,,x10)

  • Oblicz dla . To sprawia, że indywidualnie jest normalny, ale z pewnymi korelacjami między nimi.yi=(xi+xi+1)/2i=1,2,,9yi

  • Oblicz . Zauważ, że .w=x1+x2++x10w=2(y1+y3+y5+y7+y9)

  • Dodaj niezależny błąd normalnie dystrybuowany do . Przy odrobinie eksperymentów odkryłem, że z działa całkiem dobrze. Zatem jest sumą plus jakiś błąd. Jest to również suma niektóre z plus tego samego błędu.wz=w+εεN(0,6)zxiyi

Będziemy rozważyć być zmienne niezależne i zmiennej zależnej.yiz

Oto macierz wykresu rozrzutu jednego takiego zestawu danych, u góry i po lewej, a postępuje w kolejności.zyi

Matryca punktowa

Oczekiwane korelacje między i wynoszą gdy a w przeciwnym razie . Zrealizowane korelacje wynoszą do 62%. Pojawiają się one jako ściślejsze wykresy rozrzutu obok przekątnej.yiyj1/2|ij|=10

Spójrz na regresję względem :zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

Statystyka F jest bardzo znacząca, ale żadna ze zmiennych niezależnych nie jest, nawet bez korekty dla wszystkich 9 z nich.

Aby zobaczyć, co się dzieje, rozważ regresję względem nieparzystej :zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Niektóre z tych zmiennych są bardzo znaczące, nawet po dostosowaniu Bonferroniego. (Patrząc na te wyniki, można powiedzieć o wiele więcej, ale odciągnęłoby nas to od głównego punktu).

Intuicja tego polega na tym, że zależy przede wszystkim od podzbioru zmiennych (ale niekoniecznie od unikalnego podzbioru). Uzupełnienie tego podzbioru ( ) zasadniczo nie dodaje informacji o ze względu na korelacje - choć nieznaczne - z samym podzbiorem.y 2 , y 4 , y 6 , y 8 zzy2,y4,y6,y8z

Tego rodzaju sytuacja pojawi się w analizie szeregów czasowych . Możemy traktować indeksy dolne za czasy. Konstrukcja wywołała między nimi szeregową korelację krótkiego zasięgu, podobnie jak wiele szeregów czasowych. Z tego powodu tracimy niewiele informacji, podpróbkując serię w regularnych odstępach czasu.yi

Jednym z wniosków, jaki możemy z tego wyciągnąć, jest to, że gdy w modelu znajduje się zbyt wiele zmiennych, mogą one maskować te naprawdę znaczące. Pierwszą oznaką tego jest bardzo znacząca ogólna statystyka F, której towarzyszą nie tak znaczące testy t dla poszczególnych współczynników. (Nawet jeśli niektóre zmienne są indywidualnie znaczące, nie oznacza to automatycznie, że inne nie są. To jedna z podstawowych wad strategii regresji krokowej: padają ofiarą tego problemu maskowania.) Nawiasem mówiąc, czynniki inflacyjne wariancjiw pierwszym zakresie regresji od 2,55 do 6,09 ze średnią 4,79: tylko na granicy diagnozowania pewnej wielokoliniowości zgodnie z najbardziej konserwatywnymi regułami; znacznie poniżej progu zgodnie z innymi zasadami (gdzie 10 to górna granica).

Whuber
źródło
5
Świetna odpowiedź. Plus 1 ode mnie. Chciałbym dać to więcej.
Michael Chernick
41

Wielokoliniowość

  • Jak zauważyłeś i jak zostało to omówione w poprzednim pytaniu , wysoki poziom wielokoliniowości jest jedną z głównych przyczyn statystycznie istotnego ale statystycznie nieistotnych predyktorów.R2
  • Oczywiście, wielokoliniowość to nie tylko absolutny próg. Standardowe błędy współczynników regresji będą rosły wraz ze wzrostem współzależności z predyktorem ogniskowym.

Wiele prawie znaczących predyktorów

  • Nawet jeśli nie miałeś wielokoliniowości, nadal możesz uzyskać nieistotne predyktory i ogólnie istotny model, jeśli dwa lub więcej indywidualnych predyktorów są bliskie znaczącym, a zatem łącznie, ogólne przewidywanie przekracza próg istotności statystycznej. Na przykład, używając alfa 0,05, gdybyś miał dwa predyktory o wartościach p 0,06 i 0,07, nie zdziwiłbym się, gdyby ogólny model miał p <0,05.
Jeromy Anglim
źródło
Ładna, zwięzła odpowiedź. Aby dodać do tego, sugerowałbym zaburzenie danych (lub usunięcie predyktora) i sprawdzenie, czy zauważalna jest zmiana współczynników regresji. Na przykład uważaj na zmiany w znakach.
Mustafa S Eisa,
38

Dzieje się tak, gdy predyktory są wysoce skorelowane. Wyobraź sobie sytuację, w której istnieją tylko dwa predyktory o bardzo wysokiej korelacji. Indywidualnie oba one również ściśle korelują ze zmienną odpowiedzi. W związku z tym test F ma niską wartość p (mówi, że predyktory razem są bardzo istotne w wyjaśnianiu zmienności zmiennej odpowiedzi). Ale test t dla każdego predyktora ma wysoką wartość p, ponieważ po uwzględnieniu efektu drugiego predyktora nie ma wiele do wyjaśnienia.

Rob Hyndman
źródło
Cześć Rob, przepraszam, że przeszkadzam. Przeczytałem twoją odpowiedź (ponieważ mam teraz do czynienia z sytuacją pytań), ale nie mogę zrozumieć, co masz na myśli mówiąc „po uwzględnieniu efektu drugiego predyktora nie ma wiele do wyjaśnienia”. Czy mogę prosić o wyjaśnienie mi tego? Wielkie dzięki.
yue86231
1
@ yue86231 Oznacza to, że chociaż mamy jedną wartość p dla każdego predyktora, nie możemy interpretować każdej wartości p osobno. Każdy test t-predyktora może pokazać znaczenie zmiennej tylko po uwzględnieniu wariancji wyjaśnionej przez wszystkie inne zmienne. Współczynniki regresji liniowej i błąd standardowy są wytwarzane w tym samym czasie, że tak powiem, a dwa predyktory zmniejszają się wzajemnie.
Robert Kubrick
11

X1N(0,1)X2=aX1+δY=bX1+cX2+ϵδϵX1N(0,1)

Cov(X2,Y)=E[(aX1+δ)(bX1+cX2+ϵ)]=E[(aX1+δ)({b+ac}X1+cδ+ϵ)]=a(b+ac)+c

a=1b=2c=1

Powiedziałeś, że rozumiesz problem korelacji zmiennych, a regresja jest nieznacznie lepsza; prawdopodobnie oznacza to, że zostałeś uwarunkowany przez częste wspominanie o wielokoliniowości, ale musiałbyś zwiększyć swoje zrozumienie geometrii najmniejszych kwadratów.

StasK
źródło
10

Szukanym słowem kluczowym byłoby „kolinearność” lub „wielokoliniowość”. Można to wykryć za pomocą diagnostyki, takiej jak zmienne czynniki inflacyjne (VIF) lub metod opisanych w podręczniku „Diagnostyka regresji: identyfikowanie wpływowych danych i źródeł kolinearności” autorstwa Belsleya, Kuha i Welscha. VIF są znacznie łatwiejsze do zrozumienia, ale nie radzą sobie z kolinearnością obejmującą przechwytywanie (tj. Predyktory, które są prawie same w sobie lub w kombinacji liniowej) - odwrotnie, diagnostyka BKW jest znacznie mniej intuicyjna, ale może poradzić sobie z kolinearnością obejmującą przechwycenie.

Stephan Kolassa
źródło
9

Odpowiedź, którą otrzymasz, zależy od zadanego pytania. Oprócz już podanych punktów, poszczególne parametry F i ogólne wartości F modelu odpowiadają na różne pytania, więc otrzymują różne odpowiedzi. Widziałem to, nawet gdy poszczególne wartości F nie są aż tak bliskie znaczeniu, szczególnie jeśli model ma więcej niż 2 lub 3 wartości IV. Nie znam żadnego sposobu połączenia poszczególnych wartości p i uzyskania czegoś sensownego, chociaż może istnieć sposób.

Peter Flom
źródło
2
(-1) Tak - oryginalny plakat zauważa, że ​​on / ona też to widział. Pytanie brzmiało, jakie dokładnie rzeczy mogą powodować inne niż kolinearność, i nie rozumiem, jak to jest odpowiedź.
Makro,
4
@Macro Opinia negatywna wydaje się nieco trudna, ponieważ w tej odpowiedzi znajduje się użyteczna i ważna obserwacja: testy ogólnego znaczenia i indywidualnego znaczenia zmiennego „odpowiadają na różne pytania”. Wprawdzie to jakościowe, ale nie więcej niż pierwsza odpowiedź z wieloma pozytywnymi opiniami; i do tej odpowiedzi dodaje pewnej uzasadnionej intuicji, prawdopodobnie czyniąc ją lepszą od tej odpowiedzi.
whuber
1
Nigdy nie powiedziałem, że ta odpowiedź nie zawiera ważnych informacji ani intuicji. Gdybym miał dobrą odpowiedź na to pytanie, odpowiedziałbym do tej pory - to trochę trudne pytanie - mówiłem tylko, że odpowiedź ta nie wydaje się odpowiadać na pytanie w żadnym znaczeniu tego słowa.
Makro,
9

Inną rzeczą, o której należy pamiętać, jest to, że testy poszczególnych współczynników zakładają, że wszystkie inne predyktory znajdują się w modelu. Innymi słowy, każdy predyktor nie jest istotny, dopóki wszystkie inne predyktory są w modelu. Musi istnieć pewna interakcja lub współzależność między dwoma lub więcej predyktorami.

Jak ktoś wcześniej pytał - jak zdiagnozowałeś brak wielokoliniowości?

Dave Kincaid
źródło
4

Jednym ze sposobów na zrozumienie tego jest geometria najmniejszych kwadratów, jak sugeruje @StasK.

Innym jest uświadomienie sobie, że oznacza to, że X jest powiązany z Y podczas kontrolowania innych zmiennych, ale nie sam. Mówisz, że X odnosi się do unikalnej wariancji w Y. To prawda. Jednak unikalna wariancja w Y różni się od całkowitej wariancji. Jaką wariancję usuwają pozostałe zmienne?

Pomógłbyś nam powiedzieć swoje zmienne.

Peter Flom
źródło