Korelacja nie oznacza związku przyczynowego, ponieważ może istnieć wiele wyjaśnień korelacji. Ale czy związek przyczynowy oznacza korelację? Intuicyjnie sądzę, że obecność związku przyczynowego oznacza, że koniecznie istnieje pewna korelacja. Ale moja intuicja nie zawsze dobrze mi służyła w statystykach. Czy związek przyczynowy oznacza korelację?
correlation
causality
Mateusz
źródło
źródło
Odpowiedzi:
Jak stwierdzono w wielu odpowiedziach powyżej, związek przyczynowy nie implikuje korelacji liniowej . Ponieważ wiele koncepcji korelacji pochodzi z pól, które w dużym stopniu opierają się na statystykach liniowych, zwykle korelację uważa się za równą korelacji liniowej. Artykuł w Wikipedii jest dobrym źródłem tego, bardzo podoba mi się ten obraz:
Spójrz na niektóre liczby w dolnym rzędzie, na przykład kształt paraboli w czwartym przykładzie. Tak dzieje się w odpowiedzi na @StasK (z odrobiną hałasu). X może być całkowicie spowodowane przez X, ale jeśli relacja liczbowa nie jest liniowa i symetryczna, nadal będziesz mieć korelację 0.
Słowo, którego szukasz, to wzajemna informacja : jest to rodzaj ogólnej nieliniowej wersji korelacji. W takim przypadku twoje stwierdzenie byłoby prawdziwe: związek przyczynowy oznacza wysoką wzajemną informację .
źródło
Ścisła odpowiedź brzmi „nie, związek przyczynowy niekoniecznie oznacza korelację”.
Rozważmy i . Związku przyczynowego nie ma nic silniejsza: określa . Jednak korelacja między i wynosi 0. Dowód: Momenty (wspólne) tych zmiennych to: ; ; przy użyciu właściwość standardowego rozkładu normalnego, że wszystkie nieparzyste momenty są równe zeru (powiedzmy, że można je łatwo wyprowadzić z funkcji generującej moment). Zatem korelacja jest równa zero.Y = X 2 ∼ χ 2 1 X Y X Y E [ X ] = 0 E [ Y ] = E [ X 2 ] = 1 C o v [ X , Y ] = E [ ( X - 0 ) ( Y - 1 ) ] =X∼N(0,1) Y=X2∼χ21 X Y X Y E[X]=0 E[Y]=E[X2]=1
Aby odnieść się do niektórych komentarzy: jedynym powodem, dla którego ten argument działa, jest to, że rozkład jest wyśrodkowany na zero i symetryczny wokół 0. W rzeczywistości każdy inny rozkład z tymi właściwościami, który miałby wystarczającą liczbę momentów, działałby w miejsce , np. jednolite na lub Laplace . Uproszczony argument polega na tym, że dla każdej dodatniej wartości istnieje równie prawdopodobna ujemna wartość o tej samej wielkości, więc kiedy wyprostujesz , nie możesz powiedzieć, że większe wartości są powiązane z większymi lub mniejszymi wartościami zN ( 0 , 1 ) ( - 10 , 10 ) ∼ exp ( - | x | ) X X X X Y Y X ∼ N ( 3 , 1 ) E [ X ] = 3 E [ Y ] = E [ X 2 ] = 10 E [ X 3 ] = 36 C oX N(0,1) (−10,10) ∼exp(−|x|) X X X X Y . Jeśli jednak weźmiesz powiedzmy , to , , i . To ma sens: dla każdej wartości poniżej zera, jest o wiele bardziej prawdopodobne wartość co jest powyżej zera, więc większe wartości są związane z większymi wartościami . (Ten ostatni ma pozacentralnych dystrybucję ; można wyciągnąć wariancji ze strony Wikipedia i obliczyć korelację jeśli jesteś zainteresowany).X∼N(3,1) E[X]=3 E[Y]=E[X2]=10 E[X3]=36 X - X X Y χ 2Cov[X,Y]=E[XY]−E[X]E[Y]=36−30=6≠0 X −X X Y χ2
źródło
Zasadniczo tak.
Korelacja nie oznacza związku przyczynowego, ponieważ mogą istnieć inne wyjaśnienia korelacji poza przyczyną. Ale aby A mogło być przyczyną B , muszą być w jakiś sposób powiązane . Oznacza to, że istnieje między nimi korelacja - chociaż ta korelacja niekoniecznie musi być liniowa.
Jak sugerują niektórzy komentatorzy, bardziej odpowiednie jest użycie terminu takiego jak „zależność” lub „powiązanie” niż korelacja. Chociaż, jak wspomniałem w komentarzach, widziałem, że „korelacja nie oznacza związku przyczynowego” w odpowiedzi na analizę daleko wykraczającą poza prostą korelację liniową, a zatem dla celów tego powiedzenia zasadniczo rozszerzyłem „korelację” na dowolne związek między A i B.
źródło
Dodanie do odpowiedzi @EpiGrad. Myślę, że dla wielu ludzi „korelacja” implikuje „korelację liniową”. Koncepcja korelacji nieliniowej może nie być intuicyjna.
Powiedziałbym więc „nie, nie muszą być skorelowane, ale muszą być powiązane ”. Zgadzamy się co do istoty, ale nie zgadzamy się co do najlepszego sposobu rozpowszechnienia substancji.
Jednym z przykładów takiego związku przyczynowego (przynajmniej ludzie myślą, że jest to związek przyczynowy) jest to, że istnieje prawdopodobieństwo odebrania telefonu i dochodu. Wiadomo, że ludzie na obu krańcach spektrum dochodów rzadziej odbierają telefony niż ludzie na środku. Uważa się, że wzór przyczynowy jest różny dla biednych (np. Unikaj zbieraczy rachunków) i bogatych (np. Unikaj ludzi proszących o datki).
źródło
Rzeczy są tutaj zdecydowanie dopracowane. Przyczyna nie implikuje korelacji ani nawet zależności statystycznej, przynajmniej nie w prosty sposób, w jaki zwykle o nich myślimy, lub w sposób sugerowany przez niektóre odpowiedzi (po prostu przekształcenie lub itp.).YX Y
Rozważ następujący model przyczynowy:
Oznacza to, że zarówno i przyczyną .U YX U Y
Teraz pozwól:
Załóżmy, że nie obserwujemy . Zauważ, że . Oznacza to, że chociaż powoduje (w sensie nieparametrycznego równania strukturalnego), nie widzisz żadnej zależności! Można to zrobić żadnej nieliniowej transformacji chcesz i że nie ujawni żadnych zależności, ponieważ nie ma żadnego marginalny zależność i tutaj.U P(Y|X)=P(Y) X Y Y X
Cała sztuka polega na tym, że chociaż i powodują , to nieznacznie ich średni efekt przyczynowy wynosi zero. Widzisz tylko (dokładną) zależność, gdy uwarunkowanie zarówno i razem (pokazuje to również, że i nie implikuje ). Tak, można argumentować, że pomimo tego, że powoduje , marginalny efekt przyczynowyX U Y X U X⊥Y U⊥Y X Y X{X,U}⊥Y X Y X Y X Y X Y U
Krótko mówiąc, powiedziałbym, że: (i) przyczynowość sugeruje zależność; ale (ii) zależność jest zależnością funkcjonalną / strukturalną i może, ale nie musi, przełożyć się na konkretną zależność statystyczną, o której myślisz.
źródło
Przyczyną i utrzymuje się być skorelowane o ile brak jest zmiany w ogóle w częstości występowania i wielkości przyczyny i ma zmiany w ogóle w życie przyczynowego. Jedyną inną możliwością byłoby, gdyby przyczyna była doskonale skorelowana z inną zmienną przyczynową o dokładnie odwrotnym skutku. Zasadniczo są to warunki eksperymentu myślowego. W prawdziwym świecie związek przyczynowy będzie implikował zależność w jakiejś formie (chociaż może nie być korelacją liniową ).
źródło
Tutaj są świetne odpowiedzi. Artem Kaznatcheev , Fomite i Peter Flom zwracają uwagę, że związek przyczynowy zwykle sugerowałby zależność, a nie korelację liniową. Carlos Cinelli podaje przykład, w którym nie ma zależności, z powodu konfiguracji funkcji generowania.
Chcę dodać punkt o tym, jak ta zależność może zniknąć w praktyce, w zestawach danych, z którymi możesz dobrze pracować. Sytuacje takie jak przykład Carlosa nie ograniczają się do samych „warunków eksperymentu myślowego”.
Zależności zanikają w procesach samoregulacji . Na przykład homeostaza zapewnia, że wewnętrzna temperatura ciała pozostaje niezależna od temperatury w pomieszczeniu. Ciepło zewnętrzne wpływa bezpośrednio na temperaturę ciała, ale wpływa również na układy chłodzące organizmu (np. Pocenie się), które utrzymują temperaturę ciała na stałym poziomie. Jeśli próbujemy temperaturę w niezwykle szybkich odstępach czasu i stosując niezwykle precyzyjne pomiary, mamy szansę zaobserwować zależności przyczynowe, ale przy normalnych częstotliwościach próbkowania temperatura ciała i temperatura zewnętrzna wydają się niezależne.
Procesy samoregulacji są powszechne w systemach biologicznych; są wytwarzane przez ewolucję. Ssaki, które nie regulują temperatury ciała, są usuwane przez dobór naturalny. Badacze pracujący z danymi biologicznymi powinni mieć świadomość, że zależności przyczynowe mogą zniknąć w ich zestawach danych.
źródło
Czy przyczyna bez jakiejkolwiek korelacji nie byłaby rng?
O ile, jak sugeruje zaakceptowana odpowiedź, nie używasz niesamowicie ograniczonej interpretacji słowa „korelacja”, to jest głupie pytanie - jeśli jedna rzecz „powoduje” drugą, z definicji ma to jakiś wpływ, czy to wzrost populacji lub po prostu intensywność.
dobrze?
Z drugiej strony, możesz dyskutować o czymś bardziej, o widoczności czegoś, na co wpływa coś innego, co, jak sądzę, wyglądałoby na związek przyczynowy, ale tak naprawdę nie mierzysz tego, co myślisz, że mierzysz ...
Więc tak, myślę, że krótka odpowiedź brzmiałaby: „Tak, dopóki nie możesz stworzyć entropii”.
źródło