Mogę wymyślić przynajmniej jeden naiwny przykład. Załóżmy, że chcę zbadać związek między X i Z. Podejrzewam także, że Y wpływa na Z, więc kontroluję Y. Jednak, jak się okazuje, X nie wie o mnie, X powoduje Y, a Y powoduje Z. Dlatego kontrolując dla Y „zakrywam” związek między X i Z, ponieważ X jest niezależny od Z, biorąc pod uwagę Y.
W poprzednim przykładzie może się zdarzyć, że relacje, które powinienem badać, to relacje między X i Y oraz Y i Z. Gdybym jednak znał takie rzeczy z góry, nie zajmowałbym się nauką pierwsze miejsce. Badanie, które zrobiłem, sugeruje, że nie ma związku między X i Z, co nie jest prawdą ... X i Z są powiązane.
Jest to zilustrowane na poniższym diagramie zależności. W odpowiednim scenariuszu Z zależy od X i Y, a X i Y są niezależne. Słusznie kontrolujemy Y, aby ustalić związek między X i Z. W lewym scenariuszu Z zależy od Y, który zależy od X. X i Z są niezależne, biorąc pod uwagę Y, więc związek między X i Z jest „zatuszowany” poprzez kontrolowanie Y.
Moje pytanie brzmi: „Kiedy należy kontrolować zmienną Y, a kiedy nie?” ... Pełne zbadanie zależności między X i Y może być trudne lub niemożliwe, ale na przykład kontrolowanie Y na danym poziomie jest opcja. Jak podejmujemy decyzję przed przeprowadzeniem badania i jakie są typowe problemy związane z kontrolowaniem za dużo lub za mało?
Cytaty docenione.
Odpowiedzi:
Uwarunkowanie (tj. Skorygowanie) prawdopodobieństw niektórych wyników, biorąc pod uwagę pewne predyktory dla zmiennych trzecich, jest powszechnie praktykowane, ale jak słusznie wskazałeś, może faktycznie wprowadzić błąd systematyczny w wynikowym oszacowaniu jako reprezentację efektów przyczynowych . Może się to zdarzyć nawet przy „klasycznych” definicjach potencjalnego związku przyczynowego, ponieważ zarówno sam związek, jak i predyktor zainteresowania mogą mieć dalsze źródła przyczynowe. Na przykład w poniższym DAG jest klasycznym pomieszaczem przyczynowego wpływu E na D , ponieważ (1) powoduje i dlatego jest związany z E , a (2) jest związany z D, ponieważ jest związany zL. E D E D , które wiąże się z D . Jednakże, bądź z klimatyzacji lub stratyfikacji P ( D | e ) na L (A „zderzacza”) wytwarzającego dociskany oszacowania przyczynowych efektu E na D , ponieważ L jest zmieszany z D o zmiennej niepomierzonej U 2 , a L jest zmieszany z E przez nie zmierzoną zmienną U 1 .U2 D P(D|E) L E D L D U2 L E U1
Zrozumienie, które zmienne uwarunkować lub stratyfikować analizę w celu zapewnienia obiektywnego oszacowania przyczynowego, wymaga starannego rozważenia możliwych DAG przy użyciu kryteriów identyfikujących efekt przyczynowy - żadnych typowych przyczyn, które nie są blokowane przez ścieżki backdoora - opisane przez Pearl, Robins i innych . Brak skrótów. Naucz się często mylących wzorców. Dowiedz się o typowych wzorcach stronniczości wyboru. Ćwiczyć.
Bibliografia
Greenland, S., Pearl, J. i Robins, JM (1999). Diagramy przyczynowe dla badań epidemiologicznych . Epidemiology , 10 (1): 37–48.
Hernán, MA i Robins, JM (2018). Wnioskowanie przyczynowe . Chapman & Hall / CRC, Boca Raton, Floryda
Maldonado, G. i Greenland, S. (2002). Oszacowanie skutków przyczynowych . International Journal of Epidemiology , 31 (2): 422–438.
Pearl, J. (2000). Przyczynowość: modele, uzasadnienie i wnioskowanie . Cambridge University Press.
źródło
Wierzę, że szybka odpowiedź jednego pytania na twoje pytanie,
jest „kryterium tylnych drzwi”.
Strukturalny model przyczynowy Judei Pearl może definitywnie powiedzieć, które zmienne są wystarczające (i kiedy jest to konieczne) do warunkowania, aby wywnioskować wpływ przyczynowy jednej zmiennej na drugą. Mianowicie na to odpowiada kryterium tylnych drzwi, które opisano na stronie 19 tego artykułu przeglądowego autorstwa Pearl.
Głównym zastrzeżeniem jest to, że wymaga znajomości związku przyczynowego między zmiennymi (w postaci strzałek kierunkowych na wykresie). Nie można tego obejść. To tutaj może mieć znaczenie trudność i możliwa subiektywność. Strukturalny model przyczynowy Pearl'a pozwala tylko wiedzieć, jak odpowiedzieć na właściwe pytania, biorąc pod uwagę model przyczynowy (tj. Wykres kierowany), który zestaw modeli przyczynowych jest możliwy, biorąc pod uwagę rozkład danych, lub jak szukać struktury przyczynowej, wykonując właściwy eksperyment. Nie mówi ci, jak znaleźć właściwą strukturę przyczynową, biorąc pod uwagę tylko rozkład danych. W rzeczywistości twierdzi, że jest to niemożliwe bez korzystania z zewnętrznej wiedzy / intuicji na temat znaczenia zmiennych.
Kryteria tylnych drzwi można określić w następujący sposób:
Jest to kryterium lub , w przeciwieństwie do ogólnego kryterium tylnych drzwi, które jest kryterium i .
Aby wyjaśnić kryterium „tylnych drzwi”, mówi ono, że dla danego modelu przyczynowego, gdy uwarunkowane jest wystarczającą zmienną, można nauczyć się wpływu przyczynowego z rozkładu prawdopodobieństwa danych. (Jak wiemy, sam rozkład połączeń nie jest wystarczający do znalezienia zachowania przyczynowego, ponieważ wiele struktur przyczynowych może być odpowiedzialnych za ten sam rozkład. Dlatego też wymagany jest również model przyczynowy.) Rozkład można oszacować za pomocą zwykłych danych statystycznych / metody uczenia maszynowego na podstawie danych obserwacyjnych. Tak długo, jak wiesz że struktura przyczynowa pozwala na warunkowanie zmiennej (lub zestawu zmiennych), twoje oszacowanie wpływu przyczynowego jednej zmiennej na drugą jest równie dobre, jak twoje oszacowanie rozkładu danych, które otrzymujesz metodami statystycznymi.
Oto, co znajdujemy, gdy zastosujemy kryterium tylnych drzwi do twoich dwóch schematów:
Jak wspomniałem wcześniej, zastosowanie kryterium tylnych drzwi wymaga znajomości modelu przyczynowego (tj. „Prawidłowego” schematu strzałek między zmiennymi). Ale moim zdaniem strukturalny model przyczynowy daje również najlepszy i najbardziej formalny sposób poszukiwania takiego modelu lub wiedzieć, kiedy poszukiwania są daremne. Ma również cudowny efekt uboczny polegający na tym, że terminy takie jak „zakłócanie porządku”, „mediacja” i „fałszywe” (wszystkie mnie mylą) są nieaktualne. Po prostu pokaż mi zdjęcie, a powiem ci, które kręgi powinny być kontrolowane.
źródło
Następujące mogą być lub mogą nie być odpowiednie dla twojego przypadku: jeśli
X
jest to leczenie, możesz być w stanie obejść swój problem, używając dopasowania oceny skłonności, w którym nadal zachowasz zmiennąY
podczas dopasowywania. Innymi słowy, równoważysz zmienne towarzyszące (Y
jest jedną z takich zmiennych towarzyszących), które przewidują otrzymanie leczeniaX
.Zauważ, że nie ma odniesienia do zmiennej wynikowej
Z
powyżej. Możesz także sprawdzić, jak zrównoważone są twoje obserwacje (generując tabelę bilansu przed i po dopasowaniu), co może dać ci wgląd w to, na ileX
zależy od tegoY
.źródło