Jak definiuje się związek przyczynowy?

Jaka jest matematyczna definicja związku przyczynowego między dwiema zmiennymi losowymi?

Biorąc pod uwagę próbkę ze wspólnego rozkładu dwóch zmiennych losowych $X$ i $Y$ , kiedy powiedzielibyśmy, że $X$ powoduje $Y$ ?

Dla kontekstu czytam ten artykuł o odkryciu przyczynowym .

machine-learning causality Jane
źródło

O ile wiem, przyczynowość jest naukową, a nie matematyczną koncepcją. Czy możesz edytować, aby wyjaśnić?

mdewey,

@mdewey Nie zgadzam się. Przyczynowość można zrealizować w sposób całkowicie formalny. Zobacz np. Moją odpowiedź.

Kodiolog,

Odpowiedzi:

Jaka jest matematyczna definicja związku przyczynowego między dwiema zmiennymi losowymi?

Matematycznie model przyczynowy składa się z zależności funkcjonalnych między zmiennymi. Rozważmy na przykład układ równań strukturalnych poniżej:

x = f_{x} (ϵ_{x}) y = f_{y} (x, ϵ_{y})

$x = f_x(\epsilon_{x})\\ y = f_y(x, \epsilon_{y})$

Oznacza to, że $x$ funkcjonalnie określa wartość $y$ (jeśli interweniujesz na $x$ zmienia to wartości $y$ ), ale nie na odwrót. Graficznie jest to zwykle reprezentowane przez $x \rightarrow y$ , co oznacza, że $x$ wchodzi do równania strukturalnego y. Jako uzupełnienie można również wyrazić model przyczynowy w kategoriach wspólnych rozkładów zmiennych alternatywnych, który jest matematycznie równoważny modelom funkcjonalnym .

Biorąc pod uwagę próbkę ze wspólnego rozkładu dwóch zmiennych losowych X i Y, kiedy powiedzielibyśmy, że X powoduje Y?

Czasami (lub przez większość czasu) nie masz wiedzy o kształcie równań strukturalnych $f_{x}$ , $f_y$ , ani nawet czy $x\rightarrow y$ czy $y \rightarrow x$ . Jedyną dostępną informacją jest łączny rozkład prawdopodobieństwa $p(y,x)$ (lub próbki z tego rozkładu).

To prowadzi do twojego pytania: kiedy mogę odzyskać kierunek przyczynowości tylko na podstawie danych? A dokładniej, kiedy mogę odzyskać, czy $x$ wchodzi do równania strukturalnego $y$ lub odwrotnie, tylko z danych?

Oczywiście bez jakichkolwiek zasadniczo niemożliwych do sprawdzenia założeń dotyczących modelu przyczynowego jest to niemożliwe . Problem polega na tym, że kilka różnych modeli przyczynowych może pociągać za sobą taki sam wspólny rozkład prawdopodobieństwa obserwowanych zmiennych. Najczęstszym przykładem jest przyczynowy układ liniowy z szumem gaussowskim.

Ale przy pewnych założeniach przyczynowych może to być możliwe - i nad tym działa literatura dotycząca odkrywania przyczyn. Jeśli nie miałeś wcześniejszego kontaktu z tym tematem, możesz zacząć od Elementów wnioskowania przyczynowego Petersa, Janzinga i Scholkopfa, a także rozdziału 2 z Causality autorstwa Judei Pearl. Mamy tutaj temat na CV z referencjami na temat odkryć przyczynowych , ale nie mamy tam jeszcze tak wielu referencji.

Dlatego nie ma tylko jednej odpowiedzi na twoje pytanie, ponieważ zależy to od przyjętych założeń. Wspomniany artykuł przytacza kilka przykładów, takich jak założenie modelu liniowego z szumem niegaussowskim . Ten przypadek jest znany jako LINGAN (skrót od liniowego niegaussowskiego modelu acyklicznego), oto przykład w R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .

Zauważ, że mamy liniowy model przyczynowy z hałasem niegaussowskim, w którym $x_2$ powoduje $x_1$ a lingam poprawnie odzyskuje kierunek przyczynowo-skutkowy. Zauważ jednak, że zależy to krytycznie od założeń LINGAM.

W przypadku cytowanego artykułu przyjmują to konkretne założenie (patrz ich „postulat”):

Jeśli $x\rightarrow y$ , minimalna długość opisu mechanizmu odwzorowującego X na Y jest niezależna od wartości X, podczas gdy minimalna długość opisu mechanizmu odwzorowującego Y na X zależy od wartości Y.

Zauważ, że to założenie. To właśnie nazwalibyśmy ich „warunkiem identyfikacji”. Zasadniczo postulat nakłada ograniczenia na wspólny rozkład $p(x,y)$ . Oznacza to, że postulat mówi, że jeśli $x \rightarrow y$ pewne ograniczenia zostaną zachowane w danych, a jeśli $y \rightarrow x$ inne ograniczenia się utrzymają. Tego rodzaju ograniczenia, które mają implikowalne konsekwencje (nakładają ograniczenia $p(y,x)$ ), pozwalają na kierunkowe odzyskanie danych obserwacyjnych.

Na koniec, wyniki odkryć przyczynowych są nadal bardzo ograniczone i zależą od silnych założeń, zachowaj ostrożność, stosując je w kontekście realnym.

Carlos Cinelli
źródło

Czy jest szansa, że poszerzysz swoją odpowiedź, aby w jakiś sposób podać kilka prostych przykładów z fałszywymi danymi ? Na przykład po przeczytaniu trochę elementów wnioskowania przyczynowego i przejrzeniu niektórych wykładów Petersa oraz ram regresji często stosuje się motywację do szczegółowego zrozumienia problemu (nawet nie dotykam ich pracy w ICP). Mam (może się mylę) wrażenie, że w twoich wysiłkach odejścia od RCM, twoje odpowiedzi pomijają wszystkie rzeczywiste materialne maszyny do modelowania.

usεr11852 mówi Przywróć Monic

@ usεr11852 Nie jestem pewien, czy rozumiem kontekst twoich pytań, czy chcesz przykłady odkryć przyczynowych? Jest kilka przykładów w tym samym dokumencie, który dostarczyła Jane. Poza tym nie jestem pewien, czy rozumiem, co rozumiesz przez „unikanie RCM i pominięcie faktycznej materialnej maszynerii do modelowania”, jakiej konkretnej maszynerii brakuje tutaj w kontekście odkrywania przyczyn?

Carlos Cinelli,

Przepraszam za zamieszanie, nie dbam o przykłady z artykułów. Mogę sam zacytować inne artykuły. (Na przykład Lopez-Paz i wsp. CVPR 2017 o ich współczynniku przyczynowości neuronowej) To, co mnie interesuje, to prosty numeryczny przykład z fałszywymi danymi, które ktoś biegnie w R (lub twoim ulubionym języku) i rozumie, co masz na myśli. Jeśli cytujesz na przykład Petersa i in. book i mają małe fragmenty kodu, które są bardzo pomocne (i czasami używają tylko lm). Nie wszyscy możemy obejść próbki obserwacyjne z zestawów danych z Tybingi, aby uzyskać pomysł na odkrycie przyczynowe! :)

usεr11852 mówi Przywróć Monic

@ usεr11852 na pewno, w tym fałszywy przykład jest trywialny, mogę dołączyć jeden używający lingam w R. Ale czy chciałbyś wyjaśnić, co miałeś na myśli mówiąc „unikając RCM i pomijając rzeczywistą maszynę do namacalnego modelowania”?

Carlos Cinelli,

@ usεr11852 ok dziękuję za opinie, w razie potrzeby postaram się dołączyć więcej kodu. Na koniec, wyniki odkryć przyczynowych są nadal bardzo ograniczone, więc ludzie muszą być bardzo ostrożni, stosując je w zależności od kontekstu.

Carlos Cinelli,

Istnieje wiele różnych podejść do sformalizowania związku przyczynowego (co jest zgodne z zasadniczym sporem filozoficznym dotyczącym związku przyczynowego, który istnieje od stuleci). Popularny jest pod względem potencjalnych wyników. Podejście potencjalne do wyników, zwane modelem przyczynowym Rubina , zakłada, że dla każdego stanu przyczynowego istnieje inna zmienna losowa. Tak, $Y_1$ może być zmienna losowa możliwych wyników z badania klinicznego, jeżeli pacjent przyjmuje badany lek, i $Y_2$ może być zmienna losowa jeśli bierze placebo. Efektem przyczynowym jest różnica między $Y_1$ i $Y_2$ . Jeśli faktycznie $Y_1 = Y_2$ , możemy powiedzieć, że leczenie nie ma wpływu. W przeciwnym razie moglibyśmy powiedzieć, że stan leczenia powoduje wynik.

Związki przyczynowe między zmiennymi można również przedstawić za pomocą kierunkowych wykresów acylicznych , które mają bardzo odmienny smak, ale okazują się matematycznie równoważne z modelem Rubina (Wasserman, 2004, sekcja 17.8).

Wasserman, L. (2004). Wszystkie statystyki: zwięzły kurs wnioskowania statystycznego . New York, NY: Springer. ISBN 978-0-387-40272-7.

Kodiolog
źródło

Dziękuję Ci. jaki byłby na to test, biorąc pod uwagę zestaw próbek ze wspólnego rozkładu?

Jane,

Czytam arxiv.org/abs/1804.04622 . Nie przeczytałem jego referencji. Próbuję zrozumieć, co rozumie się przez związek przyczynowy na podstawie danych obserwacyjnych.

Jane,

Przepraszam (-1), to nie jest to, co jest proszony, nie obserwować

, ani

, można zaobserwować próbkę faktycznych zmiennych

. Zobacz artykuł, do którego Jane połączyła.

Y_{1}

$Y_1$

Y_{2}

$Y_2$

X

$X$

Y

$Y$

Carlos Cinelli,

@Vimal: Rozumiem przypadek, w którym mamy „dystrybucje interwencyjne”. Nie mamy w tym ustawieniu „rozkładów interwencyjnych” i dlatego trudniej to zrozumieć. W motywującym przykładzie w pracy podają coś w rodzaju

. Rozkład warunkowy y dla x jest zasadniczo rozkładem szumu

plus pewne tłumaczenie, podczas gdy nie dotyczy to rozkładu warunkowego x dla y. Początkowo rozumiem ten przykład. Próbuję zrozumieć, jaka jest ogólna definicja obserwacyjnego odkrycia przyczynowości.

(x, y = x^{3} + ϵ)

$(x, y=x^3+\epsilon)$

ϵ

$\epsilon$

Jane

@Jane w przypadku obserwacji (w przypadku pytania), generalnie nie można wnioskować o przyczynowości wyłącznie matematycznie, przynajmniej w przypadku dwóch zmiennych. Dla większej liczby zmiennych, pod dodatkowe (nieweryfikowalnych) założenia Państwo mogli złożyć wniosek, ale konkluzja może być nadal kwestionowane. Ta dyskusja jest bardzo długa w komentarzach. :)

Vimal

$X$ $Y$ . Pierwszy jest standardem, a drugi to moje własne twierdzenie.

$X$ $Y$ powoduje zmianę

Interwencja to chirurgiczna zmiana zmiennej, która nie wpływa na zmienne, od których zależy. Interwencje zostały rygorystycznie sformalizowane w równaniach strukturalnych i przyczynowych modelach graficznych, ale o ile mi wiadomo, nie ma definicji niezależnej od konkretnej klasy modelu.

$Y$ $X$

$X$ $Y$

We współczesnym podejściu do związku przyczynowego interwencja jest traktowana jako prymitywny obiekt, który definiuje związki przyczynowe (definicja 1). Moim zdaniem jednak interwencja jest odzwierciedleniem i koniecznie spójna z dynamiką symulacji.

zenna
źródło