Czy dodanie większej liczby zmiennych do regresji wielowymiarowej zmienia współczynniki istniejących zmiennych?

16

Powiedzmy, że mam regresję wielowymiarową (kilka zmiennych niezależnych), która składa się z 3 zmiennych. Każda z tych zmiennych ma określony współczynnik. Jeśli zdecyduję się wprowadzić czwartą zmienną i ponownie uruchomić regresję, czy zmienią się współczynniki 3 pierwotnych zmiennych?

Mówiąc szerzej: czy w regresji wielowymiarowej (wiele zmiennych niezależnych) na współczynnik danej zmiennej ma wpływ współczynnik innej zmiennej?

Lukas Pleva
źródło
1
Edytuj pytanie, aby było bardziej precyzyjne. Czy multivariablemasz na myśli wiele zmiennych niezależnych („regresja wielokrotna”) czy wiele zmiennych zależnych („regresja wielowymiarowa” lub „MAN (C) OVA”)?
ttnphns
1
Gdyby odpowiedź brzmiała „nie”, nie byłoby potrzeby wykonywania regresji wielowymiarowej! (moglibyśmy po prostu zrobić wiele jednowymiarowych)
user603 13.03.13
1
To wnikliwy punkt, @ user603, ale myślę, że nadal może istnieć miejsce na regresję wielokrotną, ponieważ jeśli inne zmienne byłyby istotnie powiązane z odpowiedzią (choć nie zmienną objaśniającą), mogą zmniejszyć różnicę wariancji prowadzącą do poprawy moc i precyzja.
Gung - Przywróć Monikę

Odpowiedzi:

23

Estymacja parametrów w modelu regresji ) zmienia się, czy zmienna X J , dodaje się do modelu, które są: β^iXj

  1. skorelowany z parametru odpowiadającej zmiennej (co już w modelu) iXi
  2. skorelowane ze zmienną odpowiedzi, Y

Szacowana wartość beta nie zmieni się po dodaniu nowej zmiennej, jeśli którakolwiek z powyższych wartości będzie nieskorelowana. Zauważ, że to, czy są one nieskorelowane w populacji (tj. , czy ρ ( X j , Y ) = 0 ) jest nieistotne. Ważne jest to, że obie przykładowe korelacje wynoszą dokładnie 0 . Zasadniczo nigdy nie będzie tak w praktyce, chyba że pracujesz z danymi eksperymentalnymi, w których zmiennymi manipulowano w taki sposób, że nie są one skorelowane z założenia. ρ(Xi,Xj)=0 ρ(Xj,Y)=00

Zauważ też, że wielkość zmiany parametrów może nie mieć zbyt wielkiego znaczenia (zależy to, przynajmniej częściowo, od twojej teorii). Co więcej, wielkość, którą mogą zmienić, jest funkcją wielkości dwóch powyższych korelacji.

Z drugiej strony, nie jest tak naprawdę słuszne myśleć o tym zjawisku jako o „współczynniku danej zmiennej [będącym pod wpływem współczynnika innej zmiennej”). To nie bety wpływają na siebie nawzajem. Zjawisko to jest naturalnym wynikiem algorytmu używanego przez oprogramowanie statystyczne do szacowania parametrów nachylenia. Wyobraźmy sobie sytuację, w której jest spowodowane zarówno przez X I i X j , które z kolei są skorelowane ze sobą. Jeśli tylko X i jest w modelu, niektóre z różnic w Y , który jest ze względu na X j zostaną niewłaściwie nadana X íYXiXjXiYXjXi. Oznacza to, że wartość jest stronnicza; nazywa się to pomijanym zmiennym nastawieniem . Xi

gung - Przywróć Monikę
źródło
Bardzo dobry punkt do zrobienia w tym ostatnim zdaniu.
Glen_b
Omawiam drugą stronę tego problemu w mojej odpowiedzi tutaj: Szacowanie zamiast b 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 .
gung - Przywróć Monikę
@gung wiem odpowiedź jest stary, ale ja po prostu próbowałem to ideone.com/6CAkSR gdzie stworzył i x 2 są skorelowane i x 1 jest skorelowane z y . Ale kiedy dodany x 1 do modelu parametr x2 zmieniło chociaż x 1 jest skorelowane z y . powiedziałeś w swojej odpowiedzi „skorelowany ze zmienną odpowiedzi, Y Szacowana beta nie zmieni się po dodaniu nowej zmiennej, jeśli którakolwiek z powyższych nie będzie skorelowana”. Czy się mylę? yx2x1yx1x1yY
floyd
1
Musi być całkowicie nieskorelowany, a nie tylko niezbyt skorelowany, @floyd. Jeśli tak, beta dla nie powinien się zmienić, chyba że wystąpił jakiś błąd. s1
gung - Przywróć Monikę
@gung bardzo dziękuję za odpowiedź. Czy znasz sposób tworzenia tak doskonałych danych? wiem, że to nie może się zdarzyć w prawdziwym życiu
Floyd
3

Z matematycznego punktu widzenia możliwe jest, że współczynniki się nie zmienią, ale jest mało prawdopodobne, że rzeczywiste dane w ogóle się nie zmienią, nawet jeśli wszystkie zmienne niezależne są od siebie niezależne. Ale w takim przypadku zmiany (inne niż w punkcie przechwytywania) będą miały tendencję do 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

Jednak w świecie rzeczywistym zmienne niezależne są często ze sobą powiązane. W takim przypadku dodanie czwartej zmiennej do równania zmieni inne współczynniki, czasami o wiele.

Możliwe są interakcje… ale to kolejne pytanie.

Peter Flom - Przywróć Monikę
źródło
1

Ogólnie rzecz biorąc, tak, dodanie zmiennej zmienia wcześniejsze współczynniki, prawie zawsze.

Rzeczywiście, jest to zasadniczo przyczyna paradoksu Simpsona , w którym współczynniki mogą się zmieniać, nawet odwrócić znak, z powodu pominiętych współzmiennych.

Aby tak się nie stało, potrzebowalibyśmy, aby nowe zmienne były prostopadłe do poprzednich. Zdarza się to często w zaprojektowanych eksperymentach, ale jest bardzo mało prawdopodobne w danych, w których wzorzec zmiennych niezależnych nie jest planowany.

Glen_b - Przywróć Monikę
źródło