Kiedy nie można kontrolować zmiennej?

15

Mogę wymyślić przynajmniej jeden naiwny przykład. Załóżmy, że chcę zbadać związek między X i Z. Podejrzewam także, że Y wpływa na Z, więc kontroluję Y. Jednak, jak się okazuje, X nie wie o mnie, X powoduje Y, a Y powoduje Z. Dlatego kontrolując dla Y „zakrywam” związek między X i Z, ponieważ X jest niezależny od Z, biorąc pod uwagę Y.

W poprzednim przykładzie może się zdarzyć, że relacje, które powinienem badać, to relacje między X i Y oraz Y i Z. Gdybym jednak znał takie rzeczy z góry, nie zajmowałbym się nauką pierwsze miejsce. Badanie, które zrobiłem, sugeruje, że nie ma związku między X i Z, co nie jest prawdą ... X i Z są powiązane.

Jest to zilustrowane na poniższym diagramie zależności. W odpowiednim scenariuszu Z zależy od X i Y, a X i Y są niezależne. Słusznie kontrolujemy Y, aby ustalić związek między X i Z. W lewym scenariuszu Z zależy od Y, który zależy od X. X i Z są niezależne, biorąc pod uwagę Y, więc związek między X i Z jest „zatuszowany” poprzez kontrolowanie Y.

relacje_zmienne

Moje pytanie brzmi: „Kiedy należy kontrolować zmienną Y, a kiedy nie?” ... Pełne zbadanie zależności między X i Y może być trudne lub niemożliwe, ale na przykład kontrolowanie Y na danym poziomie jest opcja. Jak podejmujemy decyzję przed przeprowadzeniem badania i jakie są typowe problemy związane z kontrolowaniem za dużo lub za mało?

Cytaty docenione.

Scott
źródło
7
Aby dać przykład, twoja dokładna sytuacja pojawia się w ocenie wpływu dyskryminacji rasowej. Niech będzie wyścigiem. Niech Z będzie wynagrodzeniem. Niech Y będzie edukacją. Wyraźnie edukacja wpływa na płace, więc chciałbyś to kontrolować, ALE jeśli dyskryminacja rasowa powoduje, że mniejszość rasowa otrzymuje gorsze wykształcenie, to kontrolowanie edukacji ukryłoby tę dyskryminację. Na przykład. patrz Neal i Johnson (1996) . Jak wskazuje odpowiedź Alexis, musisz zapoznać się ze szczegółami swojego problemu. Nie ma prostego przycisku do naciśnięcia, który rozwiązuje wszystko. XZY
Matthew Gunn
1
Nie miałem nadziei na naciśnięcie prostego przycisku. Byłbym naprawdę rozczarowany, gdyby moje pytanie okazało się banalną odpowiedzią. :)
Scott
1
@Repmat Tak. Jednak 4 założenia oszacowania IV rzadko są spełnione, a nawet gdy są, siła powiązanych powiązań może sprawić, że oszacowanie IV da stronnicze wyniki. Zobacz na przykład Hernán i Robins Causal Estimation (pełny cytat i link w mojej odpowiedzi), rozdział 16: Szacowanie zmiennych instrumentalnych.
Alexis,
1
@Alexis Oczywiście, IV jest trudne do zdobycia ... „Bez darmowego lunchu” i wszystko, ale kiedy to zrobisz, często będziesz o tym wiedział bez żadnych wątpliwości.
Repmat
1
@Repmat ... założenia prawidłowych szacunków IV wymagają więcej niż przedstawionego DAG ... są naprawdę dość wątłe.
Alexis

Odpowiedzi:

7

Uwarunkowanie (tj. Skorygowanie) prawdopodobieństw niektórych wyników, biorąc pod uwagę pewne predyktory dla zmiennych trzecich, jest powszechnie praktykowane, ale jak słusznie wskazałeś, może faktycznie wprowadzić błąd systematyczny w wynikowym oszacowaniu jako reprezentację efektów przyczynowych . Może się to zdarzyć nawet przy „klasycznych” definicjach potencjalnego związku przyczynowego, ponieważ zarówno sam związek, jak i predyktor zainteresowania mogą mieć dalsze źródła przyczynowe. Na przykład w poniższym DAG jest klasycznym pomieszaczem przyczynowego wpływu E na D , ponieważ (1) powoduje i dlatego jest związany z E , a (2) jest związany z D, ponieważ jest związany zLEDED , które wiąże się z D . Jednakże, bądź z klimatyzacji lub stratyfikacji P ( D | e ) na L (A „zderzacza”) wytwarzającego dociskany oszacowania przyczynowych efektu E na D , ponieważ L jest zmieszany z D o zmiennej niepomierzonej U 2 , a L jest zmieszany z E przez nie zmierzoną zmienną U 1 .U2DP(D|E)LEDLDU2LEU1

DAG

Zrozumienie, które zmienne uwarunkować lub stratyfikować analizę w celu zapewnienia obiektywnego oszacowania przyczynowego, wymaga starannego rozważenia możliwych DAG przy użyciu kryteriów identyfikujących efekt przyczynowy - żadnych typowych przyczyn, które nie są blokowane przez ścieżki backdoora - opisane przez Pearl, Robins i innych . Brak skrótów. Naucz się często mylących wzorców. Dowiedz się o typowych wzorcach stronniczości wyboru. Ćwiczyć.

Bibliografia

Greenland, S., Pearl, J. i Robins, JM (1999). Diagramy przyczynowe dla badań epidemiologicznych . Epidemiology , 10 (1): 37–48.

Hernán, MA i Robins, JM (2018). Wnioskowanie przyczynowe . Chapman & Hall / CRC, Boca Raton, Floryda

Maldonado, G. i Greenland, S. (2002). Oszacowanie skutków przyczynowych . International Journal of Epidemiology , 31 (2): 422–438.

Pearl, J. (2000). Przyczynowość: modele, uzasadnienie i wnioskowanie . Cambridge University Press.

Alexis
źródło
12

Wierzę, że szybka odpowiedź jednego pytania na twoje pytanie,

Kiedy należy kontrolować zmienną Y, a kiedy nie?

jest „kryterium tylnych drzwi”.

Strukturalny model przyczynowy Judei Pearl może definitywnie powiedzieć, które zmienne są wystarczające (i kiedy jest to konieczne) do warunkowania, aby wywnioskować wpływ przyczynowy jednej zmiennej na drugą. Mianowicie na to odpowiada kryterium tylnych drzwi, które opisano na stronie 19 tego artykułu przeglądowego autorstwa Pearl.

Głównym zastrzeżeniem jest to, że wymaga znajomości związku przyczynowego między zmiennymi (w postaci strzałek kierunkowych na wykresie). Nie można tego obejść. To tutaj może mieć znaczenie trudność i możliwa subiektywność. Strukturalny model przyczynowy Pearl'a pozwala tylko wiedzieć, jak odpowiedzieć na właściwe pytania, biorąc pod uwagę model przyczynowy (tj. Wykres kierowany), który zestaw modeli przyczynowych jest możliwy, biorąc pod uwagę rozkład danych, lub jak szukać struktury przyczynowej, wykonując właściwy eksperyment. Nie mówi ci, jak znaleźć właściwą strukturę przyczynową, biorąc pod uwagę tylko rozkład danych. W rzeczywistości twierdzi, że jest to niemożliwe bez korzystania z zewnętrznej wiedzy / intuicji na temat znaczenia zmiennych.

Kryteria tylnych drzwi można określić w następujący sposób:

XY,S

SX

SXY

YX.

S,XY

S,

SS

Jest to kryterium lub , w przeciwieństwie do ogólnego kryterium tylnych drzwi, które jest kryterium i .

Aby wyjaśnić kryterium „tylnych drzwi”, mówi ono, że dla danego modelu przyczynowego, gdy uwarunkowane jest wystarczającą zmienną, można nauczyć się wpływu przyczynowego z rozkładu prawdopodobieństwa danych. (Jak wiemy, sam rozkład połączeń nie jest wystarczający do znalezienia zachowania przyczynowego, ponieważ wiele struktur przyczynowych może być odpowiedzialnych za ten sam rozkład. Dlatego też wymagany jest również model przyczynowy.) Rozkład można oszacować za pomocą zwykłych danych statystycznych / metody uczenia maszynowego na podstawie danych obserwacyjnych. Tak długo, jak wiesz że struktura przyczynowa pozwala na warunkowanie zmiennej (lub zestawu zmiennych), twoje oszacowanie wpływu przyczynowego jednej zmiennej na drugą jest równie dobre, jak twoje oszacowanie rozkładu danych, które otrzymujesz metodami statystycznymi.

Oto, co znajdujemy, gdy zastosujemy kryterium tylnych drzwi do twoich dwóch schematów:

ZX.YYX,Y

YXZXYYYZ.YY.X.YYYXY

YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

YX.ZX.

ZYXZWBAX. YY B,B,YZYX

ZWBYX. Y ZYXZWBAX,B.

YAWXZB.XZB,BAWBAWXZ

Jak wspomniałem wcześniej, zastosowanie kryterium tylnych drzwi wymaga znajomości modelu przyczynowego (tj. „Prawidłowego” schematu strzałek między zmiennymi). Ale moim zdaniem strukturalny model przyczynowy daje również najlepszy i najbardziej formalny sposób poszukiwania takiego modelu lub wiedzieć, kiedy poszukiwania są daremne. Ma również cudowny efekt uboczny polegający na tym, że terminy takie jak „zakłócanie porządku”, „mediacja” i „fałszywe” (wszystkie mnie mylą) są nieaktualne. Po prostu pokaż mi zdjęcie, a powiem ci, które kręgi powinny być kontrolowane.

Spalacze mostkowe
źródło
3
Ładny. Zastanawiałem się, czy dodać przyczynowość Pearl'a do części referencji mojej odpowiedzi ... i teraz to zrobiłem. :)
Alexis
0

Następujące mogą być lub mogą nie być odpowiednie dla twojego przypadku: jeśli Xjest to leczenie, możesz być w stanie obejść swój problem, używając dopasowania oceny skłonności, w którym nadal zachowasz zmienną Ypodczas dopasowywania. Innymi słowy, równoważysz zmienne towarzyszące ( Yjest jedną z takich zmiennych towarzyszących), które przewidują otrzymanie leczenia X.
Zauważ, że nie ma odniesienia do zmiennej wynikowej Zpowyżej. Możesz także sprawdzić, jak zrównoważone są twoje obserwacje (generując tabelę bilansu przed i po dopasowaniu), co może dać ci wgląd w to, na ile Xzależy od tego Y.

NadTeX
źródło