Jaki jest wpływ skorelowanych predyktorów w modelu regresji wielokrotnej?

45

Nauczyłem się w mojej klasie modeli liniowych, że jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny. Załóżmy na przykład, że wielkość domu i liczba sypialni są skorelowane. Podczas prognozowania kosztu domu za pomocą tych dwóch predyktorów jeden z nich można upuścić, ponieważ oba zapewniają wiele takich samych informacji. Intuicyjnie ma to sens, ale mam kilka technicznych pytań:

  1. W jaki sposób efekt ten przejawia się w wartościach p współczynników regresji, gdy uwzględnia się tylko jeden lub oba predyktory w modelu?
  2. Jak na zmienność współczynników regresji wpływa wpływ obu predyktorów w modelu lub tylko jeden?
  3. Skąd mam wiedzieć, który predyktor wybierze model jako mniej istotny?
  4. W jaki sposób uwzględnienie tylko jednego lub obu predyktorów zmienia wartość / wariancję moich prognozowanych kosztów?
Vivek Subramanian
źródło
6
Odpowiedzi na niektóre twoje pytania pojawiły się w innych wątkach, takich jak stats.stackexchange.com/a/14528 , które opisują sytuację, w której każdy z zestawu tylko nieznacznie skorelowanych predyktorów wydaje się nieistotny, nawet jeśli zbiorowo należą w modelu. To dobry zestaw pytań, ale prowadzi do wielu rozważań i technik; napisano o nich całe książki. Zobacz na przykład strategie modelowania regresji Franka Harrella .
whuber
1
Korzystając z wielkości domu i sypialni, można zauważyć, że nie ma znaczenia, jeśli korelacja jest różna od 1 lub -1. W rzeczywistości istnieją domy z 2 sypialniami i 3 sypialniami o tej samej wielkości, a ich koszty mogą (znacząco) różnić się, co czyni oba predyktory znaczącymi. Jednak rozmiar w metrach kwadratowych i rozmiar w stopach kwadratowych mają korelację = 1 i jeden z nich zawsze można upuścić.
Pere

Odpowiedzi:

38

Temat, o który pytasz, to wielokoliniowość . Możesz przeczytać niektóre wątki na CV skategoryzowane pod tagiem . Warto również poświęcić czas na powyższą odpowiedź @ whubera, do której odsyłam powyżej .


Twierdzenie, że „jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny”, nie jest poprawne. Jeśli istnieje rzeczywisty wpływ zmiennej, prawdopodobieństwo, że zmienna będzie znacząca, jest funkcją kilku rzeczy, takich jak wielkość efektu, wielkość wariancji błędu, wariancja samej zmiennej, ilość danych masz i liczbę innych zmiennych w modelu. To, czy zmienne są skorelowane, jest również istotne, ale nie zastępuje tych faktów. Rozważ następującą prostą demonstrację w R:

library(MASS)    # allows you to generate correlated data
set.seed(4314)   # makes this example exactly replicable

# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20,   mu=c(0,0), Sigma=rbind(c(1.00, 0.70),    # r=.70
                                            c(0.70, 1.00)) )
X1 = mvrnorm(n=100,  mu=c(0,0), Sigma=rbind(c(1.00, 0.87),    # r=.87
                                            c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95),    # r=.95
                                            c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20)    # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100)   #  but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000)  #  related to the 1st

# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X0[, 1]       0.6614     0.3612   1.831   0.0847 .     # neither variable
# X0[, 2]       0.4215     0.3217   1.310   0.2075       #  is significant
summary(lm(y1~X1[,1]+X1[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X1[, 1]      0.57987    0.21074   2.752  0.00708 **    # only 1 variable
# X1[, 2]      0.25081    0.19806   1.266  0.20841       #  is significant
summary(lm(y2~X2[,1]+X2[,2]))
#             Estimate Std. Error t value Pr(>|t|)    
# X2[, 1]      0.60783    0.09841   6.177 9.52e-10 ***   # both variables
# X2[, 2]      0.39632    0.09781   4.052 5.47e-05 ***   #  are significant

Korelacja między dwiema zmiennymi jest najniższa w pierwszym przykładzie i najwyższa w trzecim, ale żadna ze zmiennych nie jest znacząca w pierwszym przykładzie, a obie są w ostatnim przykładzie. Wielkość efektów jest identyczna we wszystkich trzech przypadkach, a wariancje zmiennych i błędy powinny być podobne (są one stochastyczne, ale pochodzą z populacji o tej samej wariancji). Wzór, który tu widzimy, wynika przede wszystkim z tego, że manipulowałem dla każdego przypadku. N


Kluczową koncepcją, którą należy zrozumieć, aby rozwiązać swoje pytania, jest współczynnik inflacji wariancji (VIF). VIF to o ile wariancja współczynnika regresji jest większa niż w innym przypadku, gdyby zmienna była całkowicie nieskorelowana ze wszystkimi innymi zmiennymi w modelu. Zauważ, że VIF jest multiplikatywnym czynnikiem, jeśli zmienna, o której mowa, jest nieskorelowana, VIF = 1. Proste zrozumienie VIF jest następujące: możesz dopasować model przewidujący zmienną (powiedzmy ) ze wszystkich innych zmiennych w twoim modelu (powiedzmy ) i uzyskać wielokrotność . VIF dla to . Powiedzmy, że VIF dla toX 2 R 2 X 1 1 / ( 1 - R 2 ) X 1 10 X 1 10 × X 1X1X2R2X11/(1R2)X110(często uważany za próg nadmiernej wielokoliniowości), wówczas wariancja rozkładu próbkowania współczynnika regresji dla byłaby większa niż byłaby, gdyby był całkowicie nieskorelowany ze wszystkimi innymi zmiennymi w modelu. X110×X1

Myślenie o tym, co by się stało, gdybyś uwzględnił obie skorelowane zmienne vs. tylko jedna jest podobna, ale nieco bardziej skomplikowana niż podejście omówione powyżej. Wynika to z faktu, że nie uwzględnienie zmiennej oznacza, że ​​model wykorzystuje mniejszy stopień swobody, co zmienia wariancję resztkową i wszystko obliczone na tej podstawie (w tym wariancję współczynników regresji). Ponadto, jeśli nieuwzględniona zmienna naprawdę jest powiązana z odpowiedzią, wariancja odpowiedzi spowodowana tą zmienną zostanie uwzględniona w wariancji rezydualnej, czyniąc ją większą niż w innym przypadku. Tak więc kilka rzeczy zmienia się jednocześnie (zmienna jest skorelowana lub nie z inną zmienną, a wariancja rezydualna), a dokładny efekt porzucenia / włączenia innej zmiennej będzie zależeć od tego, w jaki sposób te kompromisy się wymieniają.


Uzbrojeni w zrozumienie VIF, oto odpowiedzi na twoje pytania:

  1. Ponieważ wariancja rozkładu próbkowania współczynnika regresji byłaby większa (o współczynnik VIF), gdyby był skorelowany z innymi zmiennymi w modelu, wartości p byłyby wyższe (tj. Mniej znaczące) niż w przeciwnym razie .
  2. Warianty współczynników regresji byłyby większe, jak już wspomniano.
  3. Zasadniczo trudno jest to ustalić bez rozwiązania modelu. Zazwyczaj, jeśli tylko jeden z dwóch jest znaczna, to będzie taka, która miała silniejszy związek dwuwymiarowe z . Y
  4. To, jak zmieniłyby się przewidywane wartości i ich wariancja, jest dość skomplikowane. Zależy to od tego, jak silnie skorelowane są zmienne i sposób, w jaki wydają się być powiązane ze zmienną odpowiedzi w twoich danych. Jeśli chodzi o ten problem, może pomóc ci przeczytać moją odpowiedź tutaj: czy istnieje różnica między „kontrolowaniem” a „ignorowaniem” innych zmiennych w regresji wielokrotnej?
gung - Przywróć Monikę
źródło
5

To bardziej komentarz, ale chciałem dołączyć wykres i trochę kodu.

Myślę, że stwierdzenie „jeśli dwa predyktory są skorelowane i oba są zawarte w modelu, jeden będzie nieistotny” jest fałszywe, jeśli masz na myśli „tylko jeden”. Binarne znaczenie statystyczne nie może być użyte do wyboru zmiennych.

Oto mój kontrprzykład z wykorzystaniem regresji procentowej zawartości tłuszczu w ciele na obwodzie uda, grubości fałdu skórnego * i obwodu środkowego ramienia:

. webuse bodyfat, clear
(Body Fat)

. reg bodyfat thigh triceps midarm

      Source |       SS       df       MS              Number of obs =      20
-------------+------------------------------           F(  3,    16) =   21.52
       Model |  396.984607     3  132.328202           Prob > F      =  0.0000
    Residual |  98.4049068    16  6.15030667           R-squared     =  0.8014
-------------+------------------------------           Adj R-squared =  0.7641
       Total |  495.389513    19  26.0731323           Root MSE      =    2.48

------------------------------------------------------------------------------
     bodyfat |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       thigh |  -2.856842   2.582015    -1.11   0.285    -8.330468    2.616785
     triceps |   4.334085   3.015511     1.44   0.170    -2.058512    10.72668
      midarm |  -2.186056   1.595499    -1.37   0.190    -5.568362     1.19625
       _cons |   117.0844   99.78238     1.17   0.258    -94.44474    328.6136
------------------------------------------------------------------------------

. corr bodyfat thigh triceps midarm 
(obs=20)

             |  bodyfat    thigh  triceps   midarm
-------------+------------------------------------
     bodyfat |   1.0000
       thigh |   0.8781   1.0000
     triceps |   0.8433   0.9238   1.0000
      midarm |   0.1424   0.0847   0.4578   1.0000


. ellip thigh triceps, coefs plot( (scatteri `=_b[thigh]' `=_b[triceps]'), yline(0, lcolor(gray)) xline(0, lcolor(gray)) legend(off))

wprowadź opis zdjęcia tutaj

Jak widać z tabeli regresji, wszystko jest nieznaczne, chociaż wartości p różnią się nieco.

Ostatnie polecenie Stata przedstawia obszar ufności dla 2 współczynników regresji (dwuwymiarowy analog znanych przedziałów ufności) wraz z oszacowaniami punktów (czerwona kropka). Elipsa zaufania dla grubości fałdu skórnego i współczynników obwodu uda jest długa, wąska i pochylona, ​​co odzwierciedla kolinearność regresorów. Pomiędzy szacowanymi współczynnikami występuje wysoka kowariancja ujemna. Elipsa obejmuje części osi pionowej i poziomej, co oznacza, że ​​nie możemy odrzucić poszczególnych hipotez, że są równe zero, chociaż możemy odrzucić połączenie zerowe, które są oba, ponieważ elipsa nie obejmuje początku. Innymi słowy, zarówno udo, jak i triceps są istotne dla tkanki tłuszczowej, ale nie można ustalić, który z nich jest winowajcą.β

Skąd więc wiemy, które predyktory byłyby mniej znaczące? Zmianę regresora można podzielić na dwa typy:

  1. Odmiana unikalna dla każdego regresora
  2. Wariacja wspólna dla regresorów

Przy szacowaniu współczynników każdego regresora zostanie wykorzystany tylko pierwszy. Wspólna odmiana jest ignorowana, ponieważ nie można jej przypisać, chociaż jest używana do przewidywania i obliczania . Gdy jest mało unikalnych informacji, zaufanie będzie niskie, a wariancje współczynników będą wysokie. Im wyższa wielokoliniowość, tym mniejsza unikalna odmiana i większe wariancje. R2


* Fałd skóry to szerokość fałdu skóry przejęta przez mięsień trójgłowy, mierzona za pomocą suwmiarki.

Dimitriy V. Masterov
źródło
Podoba mi się twój przykład, ale ściśle mówiąc, byłby kontrprzykład, gdyby stwierdzenie w pierwotnym pytaniu brzmiało „jeśli [...], tylko jeden będzie nieistotny”, ale nie zawiera słowa „tylko”.
ameba mówi Przywróć Monikę
@amoeba To doskonały punkt. Poprawię swój komentarz.
Dimitriy V. Masterov
Czy możesz podać jakąś formułę dla dalszego zilustrowania: „Przy szacowaniu współczynników każdego regresora zostanie zastosowana tylko pierwsza. Wspólna odmiana jest ignorowana, ponieważ nie można jej przypisać”
mac.
3

Jak zauważył @whuber, jest to złożone pytanie. Jednak pierwsze zdanie Twojego posta jest ogromnym uproszczeniem. Często zdarza się, że dwie (lub więcej) zmienne zostaną skorelowane i obie będą powiązane ze zmienną zależną. To, czy są znaczące, czy nie, zależy zarówno od wielkości efektu, jak i wielkości komórki.

W twoim przykładzie załóżmy, że dla danej wielkości domu ludzie woleli mniej pokoi (przynajmniej w Nowym Jorku, nie jest to nierozsądne - oznaczałoby to starsze budynki, więcej solidnych ścian itp. I może być markerem sąsiedztwa). Wtedy oba mogą być znaczące, w przeciwnych kierunkach!

Albo załóżmy, że tymi dwiema zmiennymi były wielkość domu i sąsiedztwo - byłyby one z pewnością skorelowane z większymi domami w lepszych dzielnicach - ale nadal mogły być oba znaczące i na pewno byłyby powiązane z ceną domu.

Ponadto użycie tylko „skorelowanych” masek złożoności. Zmienne mogą być silnie powiązane bez korelacji.

Peter Flom - Przywróć Monikę
źródło