W jakich warunkach korelacja oznacza związek przyczynowy?

85

Wszyscy wiemy, że mantra „korelacja nie implikuje związku przyczynowego”, która jest wniknięta we wszystkich studentów pierwszego roku statystyki. Istnieje kilka ciekawych przykładów tutaj ilustrujące ideę.

Czasami jednak korelacja nie implikuje związku przyczynowego. Poniższy przykład pochodzi z tej strony Wikipedii

Na przykład można przeprowadzić eksperyment na identycznych bliźniakach, o których wiadomo, że konsekwentnie uzyskują te same oceny w swoich testach. Jeden bliźniak jest wysyłany na studia na sześć godzin, a drugi do parku rozrywki. Jeśli ich wyniki testu nagle się znacznie rozeszły, byłby to mocny dowód na to, że studiowanie (lub pójście do parku rozrywki) miało związek przyczynowy z wynikami testu. W takim przypadku korelacja między wynikami badań a wynikami testów prawie na pewno oznaczałaby związek przyczynowy.

Czy istnieją inne sytuacje, w których korelacja implikuje związek przyczynowy?

Rob Hyndman
źródło
16
Korelacja i silna podstawowa przyczyna linku sugerują związek przyczynowy, dopóki nie zostanie udowodnione, że jest to prawdopodobnie najlepsza możliwa metoda.
James
8
Czy to nie Karl Popper powiedział, że człowiek nie może ustalić przyczynowości: teorie naukowe mają charakter abstrakcyjny. Mogą być falsyfikowalne, a fakt, że szyfrujemy trudności w fałszowaniu czegoś, zmusza nas do myślenia o przyczynowości ...
Robin Girard
3
Interesujący kontrprzykład Jaynesa: Mamy dedukcyjny związek „bez chmur” oznacza „bez deszczu”; ale kto by uwierzył, że „brak chmur” jest fizyczną przyczyną „bez deszczu”?
probabilislogiczny
4
Użyjmy innego terminu niż „sugeruj”, ponieważ w słowniku jego znaczenie obejmuje zarówno 1.
Sugestia,
Czy bliźniak z tego przykładu ma w ogóle sens? Rozumiem, że przyczyną jest to, że różnice między badaniem metod / reżimów powodują różnice w wynikach testów bliźniaków. Ale jest to próbka jednego, a nawet przy dużej próbce wystarczy jeden zestaw bliźniaków, aby uzyskać przeciwną reakcję, aby przełamać hipotezę, styl czarnego łabędzia ... @probabilityislogic: czy pojęcie „brak chmur” ma sens fizyczny znaczenie? Jeśli tak, to nie rozumiem, dlaczego druga część nie jest wiarygodna.
naught101

Odpowiedzi:

33

Korelacja nie jest wystarczająca dla związku przyczynowego. Można obejść przykład z Wikipedii, wyobrażając sobie, że te bliźniaki zawsze oszukiwały w swoich testach, mając urządzenie, które daje im odpowiedzi. Bliźniak, który jedzie do wesołego miasteczka, traci urządzenie, stąd niska klasa.

Dobrym sposobem na wyjaśnienie tych rzeczy jest pomyślenie o strukturze sieci bayesowskiej, która może generować mierzone wielkości, jak zrobił to Pearl w swojej książce Causality . Jego podstawowym celem jest poszukiwanie ukrytych zmiennych. Jeśli istnieje ukryta zmienna, która zdarza się nie zmieniać w mierzonej próbce, korelacja nie implikuje związku przyczynowego. Ujawnij wszystkie ukryte zmienne i masz przyczynę.

Hbar
źródło
Mam problem ze zrozumieniem, dlaczego kierunki strzałek w odpowiedniej sieci bayesowskiej mają związek z przyczyną. Na przykład A-> B i B-> A reprezentują różne kierunki przyczynowości, ale sieci bayesowskie dla tych dwóch struktur są równoważne
Jarosław Bułatow
6
Nie są równoważne w obliczu interwencji.
Neil G,
Te sieci bayesowskie są równoważne w tym sensie, że biorąc pod uwagę dane pobrane z jednego z nich, nie można powiedzieć, który to był
Jarosław Bułatow
4
Eee ... Nie znam prawdziwych statystyk na dłuższą metę ... ale czy „ujawnianie wszystkich ukrytych zmiennych” z definicji nie jest niemożliwe? Skąd wiesz, że nie ma już „ukrytych” zmiennych?
Craig Walker,
4
@Craig O to chodzi; to nie jest możliwe.
Justin L.,
35

Dodam tylko kilka dodatkowych uwag na temat związku przyczynowego z perspektywy epidemiologicznej . Większość tych argumentów pochodzi z Practical Psychiatric Epidemiology , Prince i in. (2003).

Przyczynowość lub interpretacja przyczynowości są zdecydowanie najtrudniejszymi aspektami badań epidemiologicznych. Badania kohortowe i przekrojowe mogą prowadzić na przykład do pomieszania efektów. Cytując S. Menarda ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher in Causal Modeling (Sage, 1976) początkowo zaproponował spełnienie następującego zestawu kryteriów:

  • Zjawiska lub zmienne, o których mowa, muszą być kowalencyjne, jak wskazują na przykład różnice między grupami eksperymentalną i kontrolną lub niezerowa korelacja między tymi dwiema zmiennymi.
  • Zależność nie może być przypisywana żadnej innej zmiennej lub zestawowi zmiennych, tzn. Nie może być fałszywa, ale musi utrzymywać się, nawet gdy inne zmienne są kontrolowane, jak wskazuje na przykład udana randomizacja w projekcie eksperymentalnym (bez różnicy między eksperymentalnym a grupy kontrolne przed leczeniem) lub przez niezerową częściową korelację między dwiema zmiennymi z inną zmienną utrzymywaną na stałym poziomie.
  • Domniemana przyczyna musi poprzedzać lub być równoczesna z domniemanym skutkiem w czasie, na co wskazuje zmiana przyczyny występująca nie później niż związana z tym zmiana efektu.

Podczas gdy dwa pierwsze kryteria można łatwo sprawdzić za pomocą badania przekroju poprzecznego lub uporządkowanego w czasie, to drugie można ocenić tylko na podstawie danych podłużnych, z wyjątkiem cech biologicznych lub genetycznych, dla których można przyjąć porządek czasowy bez danych podłużnych. Oczywiście sytuacja staje się bardziej złożona w przypadku nierekurencyjnego związku przyczynowego.

Podoba mi się również poniższa ilustracja (rozdział 13, we wspomnianym wyżej odnośniku), która podsumowuje podejście ogłoszone przez Hill (1965), które obejmuje 9 różnych kryteriów związanych z efektem przyczynowym, cytowanych również przez @James. Pierwotny artykuł był zatytułowany „Środowisko i choroba: związek czy związek przyczynowy?” ( Wersja PDF ).

Hill1965

Wreszcie rozdział 2 najsłynniejszej książki Rothmana, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2. wydanie), zawiera bardzo kompletną dyskusję na temat związku przyczynowego i wnioskowania przyczynowego, zarówno z perspektywy statystycznej, jak i filozoficznej.

Chciałbym dodać następujące odniesienia (z grubsza zaczerpnięte z internetowego kursu epidemiologicznego), które są również bardzo interesujące:

Wreszcie, przegląd ten oferuje szersze spojrzenie na modelowanie przyczynowe, wnioskowanie przyczynowe w statystykach: przegląd (J Pearl, SS 2009 (3)).

chl
źródło
18

Sednem twojego pytania jest pytanie „kiedy związek przyczynowy? Nie musi to być tylko korelacja implikująca (lub nie) związek przyczynowy.

Dobra książka na ten temat Johua Angrist i Jorn-Steffen Pischke nazywa się w większości nieszkodliwymi ekonometriami . Zaczynają od ideału eksperymentalnego, w którym jesteśmy w stanie w pewien sposób losowo badać „leczenie”, a następnie przechodzą na alternatywne metody generowania tej randomizacji w celu uzyskania wpływów przyczynowych. Zaczyna się to od badań tzw. Eksperymentów naturalnych.

Jednym z pierwszych przykładów naturalnego eksperymentu stosowanego do identyfikacji związków przyczynowych jest praca Angrista z 1989 r. Pt. „Lifetime Earnings and the Vietnam Era Draft Lottery”. W artykule podjęto próbę oszacowania wpływu służby wojskowej na zarobki dożywotnie. Kluczowym problemem związanym z oszacowaniem jakiegokolwiek skutku przyczynowego jest to, że pewne typy ludzi mogą być bardziej skłonne do zaciągnięcia się, co może zniekształcać każdy pomiar związku. Angrist wykorzystuje naturalny eksperyment stworzony przez loterię z Wietnamu, aby skutecznie „losowo przydzielić” leczenie „służbie wojskowej” grupie mężczyzn.

Kiedy więc mamy związek przyczynowy? W warunkach eksperymentalnych. Kiedy się zbliżamy? W ramach naturalnych eksperymentów. Istnieją również inne techniki, które zbliżają nas do „przyczynowości”, tzn. Są znacznie lepsze niż zwykła kontrola statystyczna. Obejmują one nieciągłość regresji, różnice w różnicach itp.

Graham Cookson
źródło
15

Problem występuje również w przypadku odwrotnym, gdy brak korelacji jest wykorzystywany jako dowód braku związku przyczynowego. Ten problem to nieliniowość; patrząc na korelację ludzie zwykle sprawdzają Pearson, który jest tylko wierzchołkiem góry lodowej.


źródło
14

Twój przykład to kontrolowany eksperyment . Jedyny znany mi kontekst, w którym korelacja może sugerować związek przyczynowy, to eksperyment naturalny .

Zasadniczo, naturalny eksperyment wykorzystuje przypisanie niektórych respondentów do leczenia, które dzieje się naturalnie w prawdziwym świecie. Ponieważ przydzielanie respondentów do grup leczenia i kontrolnych nie jest kontrolowane przez eksperymentatora, stopień, w jakim korelacja implikuje związek przyczynowy, jest być może do pewnego stopnia słabszy.

Zobacz linki wiki, aby uzyskać więcej informacji na temat kontrolowanych / naturalnych eksperymentów.


źródło
12

Moim zdaniem grupa zadaniowa ds. Statystyki APA dość dobrze to podsumowała

Wnioskowanie o przyczynowości na podstawie nieandomizowanych projektów jest ryzykownym przedsięwzięciem. Badacze stosujący nieandomizowane projekty mają dodatkowy obowiązek wyjaśnienia logiki krystalicznych zmiennych zawartych w ich projektach oraz ostrzeżenia czytelnika o prawdopodobnych rywalizujących hipotezach, które mogłyby wyjaśnić ich wyniki. Nawet w randomizowanych eksperymentach przypisywanie efektów przyczynowych do dowolnego aspektu stanu leczenia wymaga wsparcia z dodatkowych eksperymentów. '' - Grupa zadaniowa APA

Jeromy Anglim
źródło
11

Wystąpienie Prezydenta Sir Austina Bradforda Hilla do Królewskiego Towarzystwa Medycznego ( Środowisko i Choroba: Stowarzyszenie czy Przyczyna? ) Wyjaśnia dziewięć kryteriów, które pomagają ocenić, czy istnieje związek przyczynowy między dwiema skorelowanymi lub powiązanymi zmiennymi.

Oni są:

  1. Siła stowarzyszenia
  2. Spójność: „czy było to wielokrotnie obserwowane przez różne osoby, w różnych miejscach, okolicznościach i czasach?”
  3. Specyficzność
  4. Tymczasowość: „który jest wóz, a który koń?” - przyczyna musi poprzedzać skutek
  5. Gradient biologiczny (krzywa dawka-odpowiedź) - w jaki sposób wielkość efektu zależy od wielkości (podejrzewanej) zmiennej przyczynowej?
  6. Prawdopodobieństwo - czy istnieje prawdopodobne wytłumaczenie związku przyczynowego?
  7. Spójność - czy związek przyczynowy byłby sprzeczny z innymi ustalonymi faktami?
  8. Eksperyment - czy eksperymentalne manipulowanie (podejrzewaną) zmienną przyczynową wpływa na (podejrzewaną) zmienną zależną
  9. Analogia - czy napotkaliśmy w przeszłości podobne związki przyczynowe?
James Scott-Brown
źródło
9

W przykładzie bliźniaków nie tylko korelacja sugeruje przyczynowość, ale także powiązane informacje lub wcześniejsza wiedza.

Załóżmy, że dodam jeszcze jedną informację. Załóżmy, że sumienny bliźniak spędził 6 godzin studiując na egzamin statystyczny, ale z powodu niefortunnego błędu egzamin był w historii. Czy nadal stwierdzilibyśmy, że badanie było przyczyną lepszych wyników?

Określenie przyczynowości jest zarówno pytaniem filozoficznym, jak i naukowym, stąd tendencja do powoływania się na filozofów takich jak David Hume i Karl Popper, gdy omawia się przyczynowość.

Nic dziwnego, że medycyna wniosła znaczący wkład w ustalenie przyczynowości za pomocą heurystyki, takich jak postulaty Kocha dotyczące ustalenia związku przyczynowego między drobnoustrojami a chorobą. Zostały one rozszerzone na „postulaty molekularne Kocha” wymagane do wykazania, że ​​gen w patogenie koduje produkt, który przyczynia się do choroby wywołanej przez patogen.

Niestety nie mogę opublikować hiperłączy rzekomo PONIEWAŻ Jestem nowym użytkownikiem (nieprawda) i nie mam wystarczającej liczby „punktów reputacji”. Prawdziwym powodem jest zgadywanie.

Thylacoleo
źródło
9

Sama korelacja nigdy nie oznacza związku przyczynowego. To takie proste.

Ale bardzo rzadko występuje tylko korelacja między dwiema zmiennymi. Często wiesz także o tym, czym są te zmienne, i teorią lub teoriami, sugerującymi, dlaczego może istnieć związek przyczynowy między zmiennymi. Jeśli nie, to kłopotamy się sprawdzeniem korelacji? (Jednak ludzie wydobywający masywne macierze korelacji w celu uzyskania znaczących wyników często nie mają przypadkowej teorii - w przeciwnym razie, po co zawracać sobie głowę wydobywaniem. Przeciwwskazaniem jest to, że często potrzebne są badania, aby uzyskać pomysły na przypadkowe teorie. I tak dalej itd.)

Odpowiedź na powszechną krytykę „Tak, ale to tylko korelacja: nie oznacza to związku przyczynowego”:

  1. W przypadku swobodnego związku konieczna jest korelacja. Powtarzające się niepowodzenie w znalezieniu korelacji byłoby rzeczywiście złą wiadomością.
  2. Nie tylko podałem ci korelację.
  3. Następnie wyjaśnij możliwe mechanizmy przyczynowe wyjaśniające korelację ...
AndyF
źródło
2
Przeciw-przykład do twojego punktu nr 1: w chaotycznym systemie możesz mieć związek przyczynowy bez oczywistej korelacji.
mkt
8

Jeden przydatny wystarczający warunek dla niektórych definicji związku przyczynowego:

Przyczynę można twierdzić, gdy jedną ze skorelowanych zmiennych można kontrolować (możemy bezpośrednio ustawić jej wartość), a korelacja jest nadal obecna.

Łukasz Lew
źródło
2
Równie dobrze można użyć słowa Pearl do „bezpośredniego ustawienia wartości [zmiennej]”: interwencji.
Neil G,
8
  1. Niemal zawsze w badaniach z randomizacją
  2. Prawie zawsze w badaniach obserwacyjnych, gdy ktoś mierzy wszystkie osoby spowiadające (prawie nigdy)
  3. Czasami, gdy ktoś mierzy niektórych doradców (algorytm IC * odkrycia DAG w książce Pearl Causality)
  4. W nie Gaussowskich modelach liniowych z dwiema lub więcej zmiennymi, ale bez użycia korelacji jako miary zależności ( LiNGAM )

Większość algorytmów wykrywania jest zaimplementowana w Tetrad IV

Wojtek
źródło
6

Powiązane pytanie może brzmieć - pod jakimi warunkami można w wiarygodny sposób wyodrębnić relacje przyczynowe z danych?

Warsztaty NIPS z 2008 r. Próbują odpowiedzieć na to pytanie empirycznie. Jednym z zadań było ustalenie kierunku przyczynowości na podstawie obserwacji par zmiennych, o których wiadomo, że jedna zmienna powoduje inną, a najlepsza metoda była w stanie poprawnie wyodrębnić kierunek przyczynowy w 80% przypadków.

Jarosław Bułatow
źródło
3

Niemal na pewno w dobrze zaprojektowanym eksperymencie. (Zaprojektowany, oczywiście, w celu wywołania takiego połączenia ).

ars
źródło
3

Załóżmy, że uważamy, że czynnik A jest przyczyną zjawiska B. Następnie staramy się go zmieniać, aby zobaczyć, czy B się zmienia. Jeśli B się nie zmienia i jeśli możemy założyć, że wszystko inne pozostało niezmienione, mocne dowody, że A nie jest przyczyną B. Jeśli B się zmienia, nie możemy stwierdzić, że A jest przyczyną, ponieważ zmiana A mogła spowodować zmiana rzeczywistego związku przyczynowego C, która spowodowała zmianę B.


źródło
Czy możesz zmienić A?
RockScience,
2

Zauważyłem, że przy omawianiu paradygmatu empirycznego użyto tutaj „dowodu”. Nie ma takiej rzeczy. Najpierw przychodzi hipoteza, w której idea jest zaawansowana; potem następuje testowanie w „kontrolowanych warunkach” [uwaga a] i jeśli „wystarczający” brak dysproporcji napotkamy , przechodzi do etapu hipotezy...Kropka. Nie ma dowodu, chyba że 1) uda się być przy każdym wystąpieniu tego zdarzenia [uwaga b] i oczywiście 2) ustalić związek przyczynowy. 1) jest nieprawdopodobne w nieskończonym wszechświecie [uwaga, że ​​z natury nie można udowodnić nieskończoności]. Nie herbata; żaden eksperyment nie jest przeprowadzany w całkowicie kontrolowanych warunkach, a im bardziej kontrolowane warunki, tym mniej podobieństwo do zewnętrznego wszechświata z pozornie nieskończonymi liniami przyczynowymi. Uwaga b; pamiętajcie, musieliście doskonale opisać powiedziane „wydarzenie”, co przypuszczalnie oznacza całkowicie poprawny język = prawdopodobnie nie język ludzki. W ostatecznym rozrachunku wszelka przyczyna prawdopodobnie wraca do Pierwszego Wydarzenia. Teraz idź porozmawiać ze wszystkimi z teorią. Tak, uczyłem się formalnie i nieformalnie. Na końcu; nie, bliskość nie oznacza związku przyczynowego ani nawet niczego innego niż tymczasowa korelacja.

Glenn Charles
źródło
1

XY

Y=bX+u

Następnie jest nieobciążonym estymatorem przyczynowy wpływ X w Y (czylibXYmi(b)=bXumi(u|X)=0u YXY

Bycie bezstronnym jest pożądaną właściwością estymatora, ale chciałbyś również, aby twój estymator był wydajny (niska wariancja) i spójny (dąży prawdopodobnie do prawdziwej wartości). Zobacz założenia Gaussa-Markowa.

użytkownik172578
źródło