W jaki sposób dodanie 2. IV może sprawić, że 1. IV będzie znaczący?

64

Mam pytanie, które jest prawdopodobnie proste, ale teraz mnie to zaskakuje, więc mam nadzieję, że możesz mi pomóc.

Mam model regresji metodą najmniejszych kwadratów, z jedną zmienną niezależną i jedną zmienną zależną. Związek nie jest znaczący. Teraz dodaję drugą zmienną niezależną. Teraz związek między pierwszą zmienną niezależną a zmienną zależną staje się znaczący.

Jak to działa? Prawdopodobnie świadczy to o pewnym problemie z moim rozumieniem, ale dla mnie, ale nie widzę, jak dodanie tej drugiej zmiennej niezależnej może uczynić pierwszą znaczącą.

EvKohl
źródło
4
To bardzo szeroko omawiany temat na tej stronie. Wynika to prawdopodobnie z kolinearności. Poszukaj „kolinearności”, a znajdziesz dziesiątki odpowiednich wątków. Sugeruję przeczytanie niektórych odpowiedzi na stats.stackexchange.com/questions/14500/…
Makro
3
możliwy duplikat istotnych predyktorów staje się nieistotny w wielokrotnej regresji logistycznej . Jest wiele wątków, które w rzeczywistości są duplikatem - to był najbliższy, jaki udało mi się znaleźć w czasie krótszym niż dwie minuty
Makro
3
Jest to rodzaj odwrotnego problemu niż ten w właśnie znalezionym wątku @macro, ale przyczyny są bardzo podobne.
Peter Flom
3
@Macro, myślę, że masz rację, że może to być duplikat, ale myślę, że problem tutaj różni się nieco od 2 powyższych pytań. OP nie odnosi się do znaczenia modelu jako całości, ani do zmiennych, które stają się nieistotne z dodatkowymi IV. Podejrzewam, że nie chodzi tu o wielokoliniowość, ale o władzę lub być może stłumienie.
gung - Przywróć Monikę
3
ponadto @ gung, tłumienie w modelach liniowych występuje tylko wtedy, gdy występuje kolinearność - różnica dotyczy interpretacji, więc „nie chodzi o wielokoliniowość, ale prawdopodobnie o tłumienie” wprowadza mylącą dychotomię
Makro

Odpowiedzi:

78

Chociaż kolinearność (zmiennych predykcyjnych) jest możliwym wyjaśnieniem, chciałbym zasugerować, że nie jest to pouczające wyjaśnienie, ponieważ wiemy, że kolinearność jest związana z „powszechną informacją” wśród predyktorów, więc nie ma w tym nic tajemniczego ani sprzecznego z intuicją efekt wprowadzenia drugiego skorelowanego predyktora do modelu.

Rozważmy zatem przypadek dwóch predyktorów, które są naprawdę ortogonalne : absolutnie nie ma między nimi kolinearności. Nadal może nastąpić znacząca zmiana znaczenia.

Wyznacz zmienne predykcyjne i i pozwól nazwać predyktor . Regresja względem nie będzie znacząca, gdy zmienność wokół jego średniej nie zostanie znacznie zmniejszona, gdy zostanie użyte jako zmienna niezależna. Jednak gdy ta odmiana jest silnie związana z drugą zmienną , sytuacja się zmienia. Przypomnij sobie, że wielokrotna regresja względem i jest równoważnaX 2 Y Y X 1 Y X 1 X 2 Y X 1 X 2X1X2)YYX1YX1X2)YX1X2)

  1. Oddzielnie cofnij i względem .X 1 X 2YX1X2)

  2. Zarejestruj wartości resztkowe stosunku do wartości resztkowych .X 1YX1

Resztki z pierwszego etapu usunęły efekt . Gdy jest ściśle skorelowane z , może to ujawnić stosunkowo niewielką zmienność, która wcześniej była maskowana. Jeśli ta odmiana jest powiązana z , uzyskujemy znaczący wynik.X 2 Y X 1X2)X2)YX1


Wszystko to można chyba wyjaśnić konkretnym przykładem. Na początek użyjmy Rdo wygenerowania dwóch niezależnych zmiennych ortogonalnych wraz z pewnym niezależnym błędem losowym :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

(Ten svdkrok zapewnia, że ​​dwie kolumny macierzy x(reprezentujące i ) są ortogonalne, co wyklucza kolinearność jako możliwe wyjaśnienie wszelkich późniejszych wyników.)X 2X1X2)

Następnie utwórz jako liniową kombinację i błędu. Skorygowałem współczynniki, aby uzyskać sprzeczne z intuicją zachowanie:XYX

y <-  x %*% c(0.05, 1) + eps * 0.01

Jest to realizacja modelu przy przypadkach.n = 32YjajareN.(0,05X1+1,00X2),0,012))n=32

Spójrz na te dwie regresje, o których mowa. Po pierwsze , regres przeciwko tylko:X 1YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

Wysoka wartość p wynosząca 0,710 pokazuje, że jest całkowicie nieistotny.X1

Następnie cofnij względem i :X 1 X 2YX1X2)

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

Nagle w obecności , jest wysoce znaczące, jak wskazano za pomocą p-wartości bliskiej zeru dla obydwu czynników.X 1X2)X1

Możemy zwizualizować to zachowanie za pomocą macierzy rozrzutu zmiennych , i wraz z resztami zastosowanymi w dwustopniowej charakterystyce regresji wielokrotnej powyżej. Ponieważ i są ortogonalne, reszty będą takie same jak i dlatego nie trzeba ich przerysowywać. Uwzględnimy resztę względem w macierzy wykresu rozrzutu, podając następującą liczbę:X 2 Y X 1 X 2 X 1 X 1 Y X 2X1X2)YX1X2)X1X1YX2)

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Oto jej rendering (z niewielkim upiększeniem):

SPM

Ta matryca grafiki ma cztery rzędy i cztery kolumny, które odliczę od góry i od lewej do prawej.

Ogłoszenie:

  • rozrzutu, w drugim rzędzie i pierwszej kolumnie potwierdza ortogonalność tych predykcyjnych: linia najmniejszych kwadratów jest pozioma i korelacji wynosi zero.(X1,X2))

  • rozproszenia w trzecim rzędzie i pierwszej kolumny wykazuje niewielkie, ale zupełnie nieistotny związek dostarczanym przez pierwszy regresji z . (Współczynnik korelacji, , wynosi tylko ).Y X 1 ρ 0,07(X1,Y)YX1ρ0,07

  • rozproszenia w trzecim rzędzie i druga kolumna przedstawia silny związek między i drugą zmienną niezależną. (Współczynnik korelacji wynosi ).Y 0,996(X2),Y)Y0,996

  • Czwarty wiersz bada zależności pomiędzy pozostałości z (regresji na ) oraz innych zmiennychX 2YX2)

    • Skala pionowa pokazuje, że reszty są (względnie) dość małe: nie mogliśmy ich łatwo zobaczyć na wykresie rozrzutu względem .X 2YX2)

    • Reszty silnie skorelowane z ( ). Regresja względem zdemaskowała to wcześniej ukryte zachowanie. ρ = 0,80 X 2X1ρ=0,80X2)

    • Z założenia nie ma żadnej korelacji między a .X2)

    • Istnieje niewielka korelacja między a tymi resztami ( ). To pokazuje, jak reszty mogą zachowywać się zupełnie inaczej niż samo W ten sposób może zostać nagle ujawniony jako znaczący czynnik przyczyniający się do regresji.ρ = 0,09 Y X 1Yρ=0,09YX1

Na koniec warto zauważyć, że dwie oceny współczynnika (oba równe , niedaleko od zamierzonej wartości ) są zgodne tylko dlatego, że i są ortogonalne. Z wyjątkiem zaprojektowanych eksperymentów rzadko zdarza się, aby ortogonalność była dokładnie utrzymywana. Odejście od ortogonalności zwykle powoduje zmianę oszacowań współczynników. 0,06895 0,05 X 1 X 2X10,068950,05X1X2)

Whuber
źródło
Rozumiem więc, że wyjaśnia zmienność, której nie ma. Czy to wymaga, aby był (więcej) znaczący niż ? Lub czy można uczynić znaczącym bez znaczenia ? X 2 X 2 X 1 X 1 X 2X1X2)X2)X1X1X2)
Ronald
@ Ronald, uważam, że odpowiedzi na twoje pytania brzmią odpowiednio nie i tak. Możesz dowiedzieć się, modyfikując przykład w tej odpowiedzi: zmień współczynniki (0,05 i 0,01) w modelu oraz liczbę przypadków ( ), aby zobaczyć, co się stanie. n=32
whuber
23

Myślę, że ten problem został wcześniej omówiony na tej stronie dość dokładnie, jeśli tylko wiesz, gdzie szukać. Prawdopodobnie dodam później komentarz z linkami do innych pytań lub mogę go edytować, aby uzyskać pełniejsze wyjaśnienie, jeśli nie mogę znaleźć żadnego.

Istnieją dwie podstawowe możliwości: Po pierwsze, drugi IV może pochłonąć część resztkowej zmienności, a tym samym zwiększyć moc testu statystycznego początkowego IV. Druga możliwość polega na tym, że masz zmienną supresora. To bardzo sprzeczny z intuicją temat, ale możesz znaleźć informacje tutaj *, tutaj lub o tym doskonałym wątku CV .

* Pamiętaj, że musisz przeczytać całą drogę do dołu, aby przejść do części wyjaśniającej zmienne supresora, możesz po prostu przejść do przodu, ale najlepiej będzie, jeśli przeczytasz całość.


Edycja: zgodnie z obietnicą dodam pełniejsze wyjaśnienie mojego punktu, w jaki sposób druga IV może pochłonąć część resztkowej zmienności, a tym samym zwiększyć moc testu statystycznego początkowej IV. @whuber dodał imponujący przykład, ale pomyślałem, że mogę dodać komplementarny przykład, który wyjaśnia to zjawisko w inny sposób, co może pomóc niektórym ludziom lepiej zrozumieć to zjawisko. Ponadto wykazuję, że druga IV nie musi być silniej powiązana (chociaż w praktyce prawie zawsze tak się stanie).

Zmienne towarzyszące w modelu regresji można testować za pomocą testów , dzieląc oszacowanie parametru przez błąd standardowy, lub można je testować za pomocą testów dzieląc sumy kwadratów. Gdy używane są SS typu III, te dwie metody testowania będą równoważne (więcej informacji na temat typów SS i powiązanych testów może pomóc przeczytać moją odpowiedź tutaj: Jak interpretować SS typu I ). Dla tych, którzy dopiero zaczynają uczyć się o metodach regresji, często przeprowadzane są testy ponieważ ludzie wydają się łatwiejsi do zrozumienia. Jednak jest to przypadek, w którym myślę, że spojrzenie na tabelę ANOVA jest bardziej pomocne. Przypomnijmy podstawową tabelę ANOVA dla prostego modelu regresji: F ttFt

ŹródłoSSdfStwardnienie rozsianefax1(y^ja-y¯)2)1SSx1dfx1Stwardnienie rozsianex1Stwardnienie rozsianermisPozostały(yja-y^ja)2)N.-(1+1)SSrmisdfrmisCałkowity(yja-y¯)2)N.-1

Tutaj jest średnią , jest obserwowaną wartością dla jednostki (np. Pacjenta) , jest przewidywaną wartością modelu dla jednostki , a jest całkowitą liczbą jednostek w badaniu. Jeśli masz model regresji wielokrotnej z dwiema zmiennymi ortogonalnymi, tabelę ANOVA można skonstruować w następujący sposób: YYiYi Y IINy¯yyjayjay^jajaN.

ŹródłoSSdfStwardnienie rozsianefax1(y^x1jax¯2)-y¯)2)1SSx1dfx1Stwardnienie rozsianex1Stwardnienie rozsianermisx2)(y^x¯1x2)ja-y¯)2)1SSx2)dfx2)Stwardnienie rozsianex2)Stwardnienie rozsianermisPozostały(yja-y^ja)2)N.-(2)+1)SSrmisdfrmisCałkowity(yja-y¯)2)N.-1

Tutaj , na przykład, jest przewidywaną wartością dla jednostki jeśli jej obserwowana wartość dla była jej rzeczywistą obserwowaną wartością, ale jej obserwowana wartość dla była średnią . Oczywiście możliwe jest, że jest obserwowaną wartością dla niektórych obserwacji, w którym to przypadku nie ma potrzeby dokonywania korekt, ale zwykle tak nie jest. Zauważ, że ta metoda tworzenia tabeli ANOVA jest poprawna tylko wtedy, gdy wszystkie zmienne są ortogonalne; jest to bardzo uproszczony przypadek stworzony do celów ekspozycyjnych. ix1x2x2 ˂ x 2x2y^x1jax¯2)jax1x2)x2)x¯2) x2)

Jeśli weźmiemy pod uwagę sytuację, w której te same dane są używane do dopasowania modelu zarówno z, jak i bez , wówczas zaobserwowane wartości i będą takie same. Zatem całkowite SS musi być takie samo w obu tabelach ANOVA. Ponadto, jeśli i są względem siebie ortogonalne, to będzie identyczny w obu tabelach ANOVA. Jak to możliwe, że w tabeli mogą występować sumy kwadratów powiązanych z ? Skąd pochodzą, jeśli łączna liczba SS i są takie same? Odpowiedź jest taka, że ​​pochodzą one z . są również brane od y ˉ y x 1 x 2 S S x 1 x 2 S S x 1 S S res df x 2 df resx2)yy¯x1x2)S.S.x1x2)S.S.x1S.S.resdfx2)dfres .

Teraz dla to podzielony przez w obu przypadkach. Ponieważ jest taki sam, różnica w znaczeniu tego testu wynika ze zmiany , która zmieniła się na dwa sposoby: Zaczęło się z mniejszą liczbą SS, ponieważ niektórym przydzielono , ale są one podzielone przez mniej df, ponieważ niektóre stopnie swobody zostały również przydzielone do . Zmiana znaczenia / mocy testu (i równoważnie testu , w tym przypadku) wynika z tego, jak te dwie zmiany się kompromisują. Jeśli podano więcej SS dox 1 M S x 1 M S res M S x 1 M S res x 2 x 2 F t x 2 x 2 M S res F x 1 pfax1M.S.x1M.S.resM.S.x1M.S.resx2)x2)fatx2), w stosunku do df, które podano , wtedy zmniejszy się, powodując wzrost związany z a staje się bardziej znaczący. x2)M.S.resfax1p

Aby to nastąpiło, efekt nie musi być większy niż , ale jeśli tak nie jest, wówczas przesunięcia wartości będą dość małe. Jedynym sposobem, w jaki skończy się przełączanie między nieistotnością a istotnością, jest to, że wartości są po prostu nieznacznie po obu stronach alfa. Oto przykład zakodowany w : x 1 p sx2)x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

W rzeczywistości wcale nie musi być znaczący. Rozważać: x2)

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Nie są one wprawdzie niczym dramatycznym przykładem w poście @ whuber, ale mogą pomóc ludziom zrozumieć, co się tutaj dzieje.

gung - Przywróć Monikę
źródło
1
(+1) dla „Po pierwsze, drugi IV może pochłonąć część resztkowej zmienności, a tym samym zwiększyć moc testu statystycznego początkowego IV”, co @whuber dał ładny przykład
Makro
(+1) Na początku podajesz trzy linki. Pierwszy (zewnętrzny) jest niestety zepsuty (błąd 404). Poza tym: mówisz, że istnieją „dwie podstawowe możliwości”: dodany drugi IV zwiększa moc do testowania pierwszego IV (i jest to dokładnie sytuacja opisana przez Whubera i Wayne'a w ich odpowiedziach) lub istnieje zmienna supresorowa (który z nich? pierwszy czy drugi?). Moje pytanie: czy to naprawdę dwie odrębne sytuacje? A może jest to w gruncie rzeczy to samo, może postrzegane nieco inaczej? Byłoby wspaniale, gdybyś mógł to rozwinąć.
ameba mówi Przywróć Monikę
@gung, dzięki za odpowiedź. Ttnphns zaczyna od podania linku do artykułu omawiającego supresję i kilka innych powiązanych efektów, a ten dokument twierdzi, że „najbardziej ogólnie przyjętą definicją zmiennej supresorowej (Tzelgov i Henik, 1991) [jest]„ zmienna, która zwiększa trafność predykcyjną innej zmiennej (lub zestawu zmiennych) poprzez włączenie jej do równania regresji ””. To brzmi dokładnie tak, jak pytał OP tutaj, dlatego byłem zdezorientowany, że powiedziałeś, że mogą być dwa różne powody.
ameba mówi Przywróć Monikę
1
@amoeba, chodzi o to, że masz 2 różne mechanizmy. Oznacza to, że masz 2 różne bazowe DAG. Zewnętrzna manifestacja może być podobna, a dodatkowa moc może być mniej więcej większa, ale powód, dla którego druga zmienna pomaga, różni się między relacją drugiej zmiennej do x1 i y. Jeśli nie jest to jasne, może być konieczne zadanie nowego pytania; w komentarzach trudno jest zrobić zbyt wiele.
gung - Przywróć Monikę
17

Wydaje się, że pytanie OP można interpretować na dwa różne sposoby:

  1. Matematycznie, jak działa OLS, tak że dodanie niezależnej zmiennej może zmienić wyniki w nieoczekiwany sposób?

  2. W jaki sposób modyfikacja mojego modelu przez dodanie jednej zmiennej może zmienić efekt innej, niezależnej zmiennej w modelu?

Istnieje kilka dobrych odpowiedzi na pytanie nr 1. Pytanie 2 może być tak oczywiste dla ekspertów, że zakładają, że OP musi zadać pytanie 1. Ale myślę, że pytanie nr 2 zasługuje na odpowiedź, która brzmiałaby mniej więcej tak:

Zacznijmy od przykładu. Powiedz, że miałeś wzrost, wiek, płeć itp. Wielu dzieci i chciałeś zrobić regresję, aby przewidzieć ich wzrost.

Zaczynasz od naiwnego modelu, w którym płeć jest zmienną niezależną. I to nie jest statystycznie istotne. (Jak to możliwe, miksujesz 3-latki i nastolatki.)

Następnie dodajesz z wiekiem i nagle nie tylko wiek jest znaczący, ale także płeć. Jak to możliwe?

Oczywiście w moim przykładzie widać wyraźnie, że wiek jest ważnym czynnikiem wzrostu dziecka / nastolatka. Prawdopodobnie najważniejszy czynnik, na którym masz dane. Płeć może mieć również znaczenie, szczególnie w przypadku starszych dzieci i dorosłych, ale sama płeć jest kiepskim modelem wzrostu dziecka.

Wiek plus płeć to rozsądny (choć oczywiście uproszczony) model, który jest odpowiedni do tego zadania. Jeśli dodasz inne dane - interakcję wieku i płci, dietę, wzrost rodziców itp. - możesz stworzyć jeszcze lepszy model, który oczywiście nadal byłby uproszczony w porównaniu z szeregiem czynników, które faktycznie determinują wzrost dziecka, ale z drugiej strony wszystkie modele są uproszczonymi wersjami rzeczywistości. (Mapa świata w skali 1: 1 nie jest zbyt przydatna dla podróżnika).

Twój oryginalny model (tylko płeć) jest zbyt uproszczony - tak uproszczony, że jest w zasadzie zepsuty. Ale to nie znaczy, że płeć nie jest przydatna w lepszym modelu.

EDYCJA: dodano sugestię Gunga dotyczącą: terminu interakcji wieku i płci.

Wayne
źródło
1
+1, nb, wiek i płeć prawdopodobnie również będą wymagały terminu interakcji.
gung - Przywróć Monikę
1
+1 To świetny przykład, ponieważ jest tak prosty i intuicyjnie jasny, a jednocześnie pasuje dokładnie do sytuacji opisanej bardziej szczegółowo, ale tylko abstrakcyjnie przez @whuber w jego zaakceptowanej odpowiedzi tutaj.
amoeba mówi Przywróć Monikę
10

Wątek ma już trzy doskonałe odpowiedzi (+1 do każdego). Moja odpowiedź jest rozszerzonym komentarzem i ilustracją do tego, co zrobił @gung (co zajęło mi trochę czasu):

Istnieją dwie podstawowe możliwości: Po pierwsze, drugi IV może pochłonąć część resztkowej zmienności, a tym samym zwiększyć moc testu statystycznego początkowego IV. Druga możliwość polega na tym, że masz zmienną supresora.

x1x2)ynRnyx1x2)(„matryca kapeluszowa” jest po prostu projektorem). Czytelnicy niezaznajomieni z tym podejściem mogą zajrzeć np. W Elementy uczenia statystycznego , Rozdział 3.2 lub w wielu innych książkach.

"Wzmocnienie"

Poniższy rysunek pokazuje obie możliwości wymienione przez @gung. Na początku rozważ tylko niebieską część (tzn. Zignoruj ​​wszystkie czerwone linie):

Ulepszenie i stłumienie

x1x2)Xyy^

x2)yx1α90yx1x1

x2)x1x2)x1x2)x2)yβα90x1

Innym sposobem jest to, że test porównuje teraz długość OF z OG, a nie z OC jak poprzednio; OF jest niewielki i „nieistotny” w porównaniu do OC, ale wystarczająco duży, aby być „znaczący” w porównaniu z OG.

To jest dokładnie sytuacja przedstawiona przez @whuber, @gung i @Wayne w swoich odpowiedziach. Nie wiem, czy ten efekt ma standardową nazwę w literaturze dotyczącej regresji, dlatego nazwałbym to „ulepszeniem”.

Tłumienie

α=90β=90x1

Nie tak w tłumieniu.

x3)x1x2)x3)Xx1x3)x1Xy

x1x1y

ameba mówi Przywróć Monikę
źródło
1
Uznałem twoją odpowiedź za najłatwiejszą do zrozumienia przy pomocy interpretacji geometrycznej. Wspaniały!
zsljulius
1
α=0yx1yx1door(x1,y)=1x1yyx1
qoheleth
α=90