X i Y nie są skorelowane, ale X jest znaczącym predyktorem Y w regresji wielokrotnej. Co to znaczy?

34

X i Y nie są skorelowane (-.01); jednak gdy umieszczam X w regresji wielokrotnej przewidującej Y, obok trzech (A, B, C) innych (powiązanych) zmiennych, X i dwie inne zmienne (A, B) są znaczącymi predyktorami Y. Zwróć uwagę, że dwie pozostałe ( A, B) zmienne są istotnie skorelowane z Y poza regresją.

Jak mam interpretować te ustalenia? X przewiduje unikalną wariancję Y, ale ponieważ nie są one skorelowane (Pearson), trudno jest je interpretować.

Znam przeciwne przypadki (tj. Dwie zmienne są skorelowane, ale regresja nie jest znacząca), a te są stosunkowo łatwiejsze do zrozumienia z teoretycznego i statystycznego punktu widzenia. Zauważ, że niektóre predyktory są dość skorelowane (np. .70), ale nie w takim stopniu, w jakim spodziewałbym się znacznej wielokoliniowości. Może jednak się mylę.

UWAGA: zadałem to pytanie wcześniej i zostało zamknięte. Racjonalne było to, że pytanie to jest zbędne z pytaniem: „ Jak regresja może być znacząca, ale wszystkie predyktory mogą być nieistotne?„Być może nie rozumiem drugiego pytania, ale uważam, że są to całkowicie odrębne pytania, zarówno matematyczne, jak i teoretyczne. Moje pytanie jest całkowicie niezależne od tego, czy„ regresja jest znacząca ”. Ponadto kilka predyktorów jest znaczących, podczas gdy inne pytanie powoduje, że zmienne nie są znaczące, więc nie widzę nakładania się. Jeśli te pytania są zbędne z powodów, których nie rozumiem, proszę wstaw komentarz przed zamknięciem tego pytania. Miałem również nadzieję, że przekażę wiadomość moderatorowi, który zamknął drugie pytanie, aby uniknąć identycznych pytań, ale nie mogłem znaleźć opcji, aby to zrobić.

regression correlation interpretation causality Behacad
źródło

2

Myślę, że jest to bardzo podobne do poprzedniego pytania. Jeśli X i Y są zasadniczo nieskorelowane, to w prostej regresji liniowej współczynnik nachylenia dla X nie będzie znaczący. W końcu oszacowanie nachylenia jest proporcjonalne do korelacji próbki. Regresja wielokrotna orzechów może być inną historią, ponieważ X i Z razem mogą wyjaśniać dużą zmienność Y. Ponieważ moja odpowiedź brzmi podobnie do odpowiedzi na poprzednie pytanie, może to wskazuje na wyraźne podobieństwo.

Michael R. Chernick,

2

Dziękuję za odpowiedź i bardzo szczegółową odpowiedź w drugim wątku. Będę musiał przeczytać go kilka razy, aby uzyskać tezę. Moim drugim problemem, jak sądzę, jest to, jak interpretować to praktycznie, a nie statystycznie lub matematycznie. Załóżmy na przykład, że prędkość pływania i lęk przed cechą nie są skorelowane, ale lęk przed cechą jest znaczącym predyktorem prędkości pływania w regresji wielokrotnej obok innych predyktorów. Jak to może praktycznie mieć sens? Powiedzmy, że pisałeś to w sekcji dyskusji w czasopiśmie klinicznym!

Behacad

3

@ jth Ponieważ utrzymujesz, że oba pytania są wystarczająco różne, aby nie były uważane za duplikaty, możesz przenieść swoją odpowiedź na drugie tutaj. (Przepraszam, że początkowo nie doceniłem różnicy). Uważam, że nowa notatka jest niewłaściwa, zakładając, że pytania są matematycznie różne - @ Michael Chernick zaznacza, że są w zasadzie takie same - ale nacisk na interpretację stanowi uzasadniony powód aby oddzielić wątki.

whuber

1

Tutaj także przeniosłem odpowiedź. Myślę, że oba pytania są całkiem różne, ale mogą zawierać wspólne wyjaśnienia.

JDav

1

Ta strona zawiera kolejną świetną dyskusję na powiązane tematy. Jest długi, ale bardzo dobry i może pomóc w zrozumieniu problemów. Polecam przeczytać go całkowicie.

Gung - Przywróć Monikę

39

Teoria przyczynowa oferuje inne wyjaśnienie, w jaki sposób dwie zmienne mogą być bezwarunkowo niezależne, ale warunkowo zależne. Nie jestem ekspertem od teorii przyczynowej i jestem wdzięczny za jakąkolwiek krytykę, która skoryguje wszelkie błędne wskazówki poniżej.

Aby to zilustrować, wykorzystam ukierunkowane wykresy acykliczne (DAG). Na tych wykresach krawędzie ( ) między zmiennymi reprezentują bezpośrednie związki przyczynowe. Główki strzałek ( lub ) wskazują kierunek związków przyczynowych. Tak więc wnioskuje, że bezpośrednio powoduje i wnioskuje, że jest to powodowane bezpośrednio przez . to ścieżka przyczynowa, która wnioskuje, że pośrednio powoduje do $-$ $\leftarrow$ $\rightarrow$ $A \rightarrow B$ $A$ $B$ $A \leftarrow B$ $A$ $B$ $A \rightarrow B \rightarrow C$ $A$ $C$ $B$ . Dla uproszczenia załóżmy, że wszystkie związki przyczynowe są liniowe.

Po pierwsze, rozważ prosty przykład błędu pomieszania :

pomieszać

Tutaj prosta regresja bivariable zasugeruje zależność między i . Jednakże, nie ma bezpośredni związek przyczynowy między i . Zamiast tego oba są bezpośrednio spowodowane przez , a w prostej regresji dwuwymiarowej obserwowanie indukuje zależność między i , powodując błąd przez zakłócenie. Jednak wieloczynnikowej regresji na klimatyzacji usunie nastawienie i nie sugerują zależność między i . $X$ $Y$ $X$ $Y$ $Z$ $Z$ $X$ $Y$ $Z$ $X$ $Y$

Po drugie, należy rozważyć przykład stronniczości zderzacza (znany również jako stronniczość Berkson lub berksonian uprzedzeń, których wybór Odchylenie to specjalny typ):

zderzak

Tutaj prosta regresja bivariable zaproponuje żadnej zależności między i . Zgadza się to z DAG, który nie wywnioskowała bezpośredni związek przyczynowy między i . Jednak wielowymiarowa regresja warunkująca spowoduje indukcję zależności między i co sugeruje, że może istnieć bezpośredni związek przyczynowy między dwiema zmiennymi, podczas gdy w rzeczywistości żadna nie istnieje. Włączenie do regresji wielowymiarowej powoduje stronniczość zderzacza. $X$ $Y$ $X$ $Y$ $Z$ $X$ $Y$ $Z$

Po trzecie, rozważ przykład przypadkowego anulowania:

anulowanie

Załóżmy, że , i są współczynnikami ścieżki i że . Prosta regresji bivariable zasugeruje nie depenence między i . Mimo, że jest w rzeczywistości bezpośrednie przyczyną , zakłócający wpływ z i przypadkowo znosi efekt w . Warunek regresji wielowymiarowej dla usunie zakłócający wpływ na i $\alpha$ $\beta$ $\gamma$ $\beta = -\alpha\gamma$ $X$ $Y$ $X$ $Y$ $Z$ $X$ $Y$ $X$ $Y$ $Z$ $Z$ $X$ $Y$ , umożliwiając oszacowanie bezpośredniego wpływu na , przy założeniu, że DAG modelu przyczynowego jest poprawna. $X$ $Y$

Podsumowując:

Przykład Confounder: i są zależne regresję bivariable i niezależny wielowymiarowego kondycjonowania regresji na confounder . $X$ $Y$ $Z$

Przykład collider: i są niezależne regresję bivariable i zależny od wielu zmiennych kondycjonowania regresssion na zderzacza . $X$ $Y$ $Z$

Inicdental przykład anulowanie: i są niezależne regresję bivariable i zależny od wielu zmiennych kondycjonowania regresssion na confounder . $X$ $Y$ $Z$

Dyskusja:

Wyniki analizy nie są zgodne z przykładem pomyłki, ale są zgodne zarówno z przykładem zderzenia, jak i przypadkowym anulowaniem. Zatem potencjalnym wyjaśnieniem jest, że nieprawidłowo uzależnione od zmiennej zderzacza w wieloczynnikowej regresji i skłoniły stowarzyszenie między i , mimo że nie jest przyczyną i nie jest przyczyną . Alternatywnie, mógłbyś poprawnie uzależnić się od pomieszania w regresji wielowymiarowej, która przypadkowo anulowała prawdziwy wpływ na w regresji dwuwymiarowej. $X$ $Y$ $X$ $Y$ $Y$ $X$ $X$ $Y$

Uważam, że używanie wiedzy podstawowej do konstruowania modeli przyczynowych jest pomocne przy rozważaniu, które zmienne należy uwzględnić w modelach statystycznych. Na przykład, jeśli poprzednie randomizowane badania wysokiej jakości stwierdziły, że powoduje a powoduje , mógłbym mocno założyć, że jest zderzaczem i a nie uzależniać go od tego w modelu statystycznym. Jednak, gdybym tylko miał intuicję, że powoduje i powoduje, , ale nie mocne dowody naukowe na poparcie mojej intuicji, mogę zrobić tylko słabą założeniu, że $X$ $Z$ $Y$ $Z$ $Z$ $X$ $Y$ $X$ $Z$ $Y$ $Z$ $Z$ jest zderzaczem i , ponieważ ludzka intuicja ma w przeszłości historię bycia wprowadzoną w błąd. Następnie, byłbym sceptyczny infering relacji przyczynowych między i bez dalszego dochodzenia swoich związkach przyczynowych z . Zamiast lub oprócz wiedzy podstawowej istnieją również algorytmy zaprojektowane do wnioskowania modeli przyczynowych z danych przy użyciu serii testów asocjacji (np. Algorytm PC i algorytm FCI, patrz implementacja Java w TETRAD , PCalg $X$ $Y$ $X$ $Y$ $Z$ do wdrożenia R). Algorytmy te są bardzo interesujące, ale nie polecałbym polegania na nich bez silnego zrozumienia mocy i ograniczeń rachunku przyczynowego i modeli przyczynowych w teorii przyczynowej.

Wniosek:

Kontemplacja modeli przyczynowych nie zwalnia badacza od zajęcia się kwestiami statystycznymi omówionymi w innych odpowiedziach tutaj. Uważam jednak, że modele przyczynowe mogą jednak stanowić pomocne ramy dla rozważenia potencjalnych wyjaśnień obserwowanej zależności statystycznej i niezależności w modelach statystycznych, zwłaszcza podczas wizualizacji potencjalnych czynników zakłócających i zderzających.

Dalsza lektura:

Gelman, Andrew. 2011. „ Przyczynowość i uczenie się statystyki” . Rano. J. Sociology 117 (3) (listopad): 955–966.

Grenlandia, S, J Pearl i JM Robins. 1999. „ Diagramy przyczynowe dla badań epidemiologicznych” . Epidemiologia (Cambridge, Mass.) 10 (1) (styczeń): 37–48.

Grenlandia, Sander. 2003. „ Kwantyfikacja błędów w modelach przyczynowo-skutkowych: klasyczne zakłócenie w porównaniu z uprzedzeniem związanym ze zderzaniem .” Epidemiologia 14 (3) (1 maja): 300–306.

Pearl, Judea. 1998. Dlaczego nie ma statystycznego testu na zamieszanie, dlaczego wielu uważa, że tak jest, i dlaczego są prawie w porządku .

Pearl, Judea. 2009. Przyczynowość: modele, uzasadnienie i wnioskowanie . 2nd ed. Cambridge University Press.

Spirtes, Peter, Clark Glymour i Richard Scheines. 2001. Przyczynowość, przewidywanie i wyszukiwanie , wydanie drugie. Książka Bradforda.

Aktualizacja: Judea Pearl omawia teorię wnioskowania przyczynowego i potrzebę włączenia wnioskowania przyczynowego do kursów statystyki wprowadzającej w wydaniu Amstat News z listopada 2012 r . Interesujący jest również jego wykład Turinga zatytułowany „Mechanizacja wnioskowania przyczynowego:„ mini ”test Turinga i nie tylko.

jthetzel
źródło

Argumenty przyczynowe są z pewnością słuszne, ale aby badacz zaakceptował to podejście, wymaga bardzo dobrej znajomości podstawowych zjawisk. Zastanawiam się, czy analiza przeprowadzana przez Behacada ma jedynie charakter eksploracyjny.

JDav

1

@Behacad: Jak wspomniano w mojej odpowiedzi, proponuję zapomnieć o jednolitym jak problem jest wielowymiarowa jeden i nie dwuwymiarowym. Aby zmierzyć wpływ zmiennej zainteresowania, musisz kontrolować inne źródła zmienności, które mogą zniekształcać zmierzony wpływ x.

ρ

$\rho$

JDav

5

+1 Ilustracje i objaśnienia są bardzo jasne i dobrze wykonane. Dziękuję za wysiłek i badania, które (oczywiście) przyczyniły się do tej odpowiedzi.

whuber

1

Czy ktoś mógłby podać mi praktyczny przykład „Po trzecie, rozważ przypadek anulowania?”. Pojawia się pytanie o związek przyczynowy. Jeśli X i Y nie są skorelowane (tj. Zmiany w X nie są powiązane ze zmianami w Y ”), jak moglibyśmy rozważyć tę„ przyczynę ”. Dokładnie to zastanawiam się w innym pytaniu! Stats.stackexchange.com/questions / 33638 /…

Behacad,

4

Warto zauważyć, że istnieją dla nich alternatywne nazwy: Confounder -> Common Cause Model; Zderzacz -> Model efektu wspólnego; & Przypadkowe anulowanie jest szczególnym przypadkiem częściowej mediacji.

Gung - Przywróć Monikę

22

Myślę, że podejście @ jthetzel jest właściwe (+1). Aby zinterpretować te wyniki, będziesz musiał pomyśleć / mieć pewną teorię, dlaczego związki manifestują się tak jak one. Oznacza to, że musisz pomyśleć o wzorze związków przyczynowych, który leży u podstaw twoich danych. Musisz zauważyć, że jak wskazuje @jthetzel, wyniki są spójne z kilkoma różnymi procesami generowania danych. Nie sądzę, aby jakakolwiek ilość dodatkowych testów statystycznych w tym samym zbiorze danych pozwoli ci rozróżnić te możliwości (chociaż z pewnością mogłyby to zrobić dalsze eksperymenty). Dlatego ważne jest, aby dobrze przemyśleć to, co wiadomo na ten temat.

Chcę wskazać kolejną możliwą sytuację, która może generować wyniki takie jak Twoja: Tłumienie . Trudniej to zilustrować za pomocą diagramów strzałek, ale jeśli mogę je nieco powiększyć, moglibyśmy pomyśleć o tym w ten sposób:

wprowadź opis zdjęcia tutaj

$\text{Other Variable}$ $\text{U}$ $\text{R}$ $\text{Suppressor}$ $\text{Y}$ $\text{Other Variable}$ $\text{Suppressor}$ $\text{Y}$ $\text{Suppressor}$ $\text{Other Variable}$ w tej sytuacji (i dlatego znowu musisz pomyśleć o tym, jaki może być podstawowy wzorzec na podstawie twojej wiedzy o tym obszarze).

$\text{Suppressor}$ $\text{Y}$ $\text{Other Variable}$ $\text{Y}$

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 *

Nie chodzi mi o to, że ta sytuacja leży u podstaw twoich danych. Nie wiem, czy jest to bardziej lub mniej prawdopodobne, niż sugerują opcje @jthetzel. Oferuję to tylko jako coś do przemyślenia. Aby zinterpretować swoje obecne wyniki, musisz pomyśleć o tych możliwościach i zdecydować, co jest najbardziej sensowne. Aby potwierdzić wybór, konieczne będą staranne eksperymenty.

gung - Przywróć Monikę
źródło

2

Doskonały! Dziękuję Ci. To kolejny dobry przykład tego, co może się wydarzyć w moich danych. Wydaje się, że mogę przyjąć tylko jedną odpowiedź ...

Behacad,

Nie ma problemu, @Behacad, myślę, że jthetzel zasługuje na znacznik wyboru; Jestem szczęśliwy, że mogę pomóc.

Gung - Przywróć Monikę

7

Tylko wizualizacja, że jest to możliwe.

Na zdjęciu (a) pokazano „normalną” lub „intuicyjną” sytuację regresyjną. To zdjęcie jest takie samo, jak na przykład znalezione (i wyjaśnione) tutaj lub tutaj .

$Y'$ $\hat Y$ $b$

$b_1$ $b_2$ $X_1$ $X_2$

$X_1$ $Y$ $Y'$ $X_1$ $Y'$ $X_2$

$X_1$ $Y$ $X_1$

Dane i analizy w przybliżeniu odpowiadające rys. (B):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

Dane i analizy w przybliżeniu odpowiadające rys. (C):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

$X_1$ $Y$ $-.224$ $X_2$ $.419$ $.538$

ttnphns
źródło

Dzięki! Nadal wydaje się to trochę sprzeczne z intuicją, ale przynajmniej twoje zdjęcia pokazują, że jest to wykonalne :)

JelenaČuklina

5

Zgadzam się z poprzednią odpowiedzią, ale mam nadzieję, że mogę przyczynić się, podając więcej szczegółów.

$X$ $Y$ $x$ $y$

$Y = a + \beta x + u$

$\hat \rho_{yx} = \hat \beta \hat\sigma_x/\hat\sigma_y$

$Y$

$Y = a + \beta x + \sum_j\alpha_jz_j + u$

$\beta$ $z_j$ $\rho$ $\rho_{xy|z}$ $z_j$

JDav
źródło

ρ

$\rho$

ρ

$\rho$

X i Y nie są skorelowane, ale X jest znaczącym predyktorem Y w regresji wielokrotnej. Co to znaczy?

Odpowiedzi: