Jeśli „korelacja nie oznacza związku przyczynowego”, to jeśli znajdę korelację istotną statystycznie, jak mogę udowodnić związek przyczynowy?

30

Rozumiem, że korelacja nie jest przyczyną . Załóżmy, że otrzymujemy wysoką korelację między dwiema zmiennymi. Jak sprawdzić, czy ta korelacja jest rzeczywiście spowodowana przyczyną? Lub, pod jakimi dokładnie warunkami możemy wykorzystać dane eksperymentalne, aby wywnioskować związek przyczynowy między dwiema lub więcej zmiennymi?

Manish Barnwal
źródło
2
Będzie to wymagało danych eksperymentalnych. Opisz eksperymentalny projekt, do którego się odwołujesz.
Frank Harrell
1
Sir, nie mam żadnych danych eksperymentalnych. Chciałem zrozumieć, jakie rodzaje kontrolowanych eksperymentów należy przeprowadzić, aby wydedukować związek przyczynowy?
Manish Barnwal
4
Istnieje wiele możliwych wzorów. Krótko mówiąc, próbujesz fizycznie kontrolować wszystkie inne zmienne i zmieniać jeden czynnik będący przedmiotem zainteresowania lub losowo stosujesz eksperymentalną manipulację, która „uśrednia” skutki wszystkich innych możliwych wyjaśnień.
Frank Harrell,
2
Krótko mówiąc, potrzebujesz jakiejś egzogenicznej odmiany.
abaumann
1
Między skorelowane Xi Ywybrać ten jeden jako przyczynę drugi, który zminimalizuje poczucie odpowiedzialności i zmaksymalizować poczucie losu.
ttnphns

Odpowiedzi:

16

Bardzo prawdopodobnym powodem korelacji 2 zmiennych jest to, że ich zmiany są powiązane z trzecią zmienną. Innymi prawdopodobnymi przyczynami są przypadek (jeśli przetestujesz wystarczającą liczbę nieskorelowanych zmiennych do korelacji, niektóre wykażą korelację) lub bardzo złożone mechanizmy, które wymagają wielu kroków.

Zobacz http://tylervigen.com/ przykładów takich jak ten:

wprowadź opis zdjęcia tutaj

Aby pewnie stwierdzić związek przyczynowy A -> B, potrzebujesz eksperymentu, w którym możesz kontrolować zmienną A i nie wpływać na inne zmienne. Następnie mierzysz, czy korelacja A i B nadal istnieje, jeśli zmienisz zmienną.

W prawie wszystkich praktycznych zastosowaniach prawie nie jest możliwe, aby nie wpływać również na inne (często nieznane) zmienne, dlatego najlepiej możemy udowodnić brak związku przyczynowego.

Aby móc określić związek przyczynowy, zaczynasz od hipotezy, że 2 zmienne mają związek przyczynowy, użyj eksperymentu, aby obalić hipotezę, a jeśli ci się nie uda, możesz stwierdzić z pewnym stopniem pewności, że hipoteza jest prawdziwa. To, jak wysoki musi być Twój poziom pewności, zależy od dziedziny badań.

W wielu dziedzinach powszechne lub konieczne jest równoległe prowadzenie 2 części eksperymentu, jednej, w której zmienna A jest zmieniana, i grupy kontrolnej, w której zmienna A nie jest zmieniana, ale eksperyment jest inny dokładnie taki sam - np. W przypadku lekiem, który nadal przykleja się pacjentom igłą lub powoduje, że połykają tabletki. Jeśli eksperyment wykazuje korelację między A i B, ale nie między A i B '(B grupy kontrolnej), możesz założyć związek przyczynowy.

Istnieją również inne sposoby wnioskowania o przyczynowości, jeśli eksperyment jest albo niemożliwy, albo niewskazany z różnych powodów (moralność, etyka, PR, koszt, czas). Jednym z powszechnych sposobów jest zastosowanie odliczenia. Biorąc przykład z komentarza: aby udowodnić, że palenie powoduje raka u ludzi, możemy użyć eksperymentu, aby udowodnić, że palenie powoduje raka u myszy, a następnie udowodnić, że istnieje korelacja między paleniem a rakiem u ludzi, i wywnioskować, że dlatego jest niezwykle prawdopodobnie palenie powoduje raka u ludzi - dowód ten można wzmocnić, jeśli również obalimy, że rak powoduje palenie. Innym sposobem na stwierdzenie przyczynowości jest wykluczenie innych przyczyn korelacji, pozostawiając przyczynowość jako najlepsze pozostałe wyjaśnienie korelacji - ta metoda nie zawsze ma zastosowanie, ponieważ czasami niemożliwe jest wyeliminowanie wszystkich możliwych przyczyn korelacji (zwanych „ścieżkami tylnymi drzwiami” w innej odpowiedzi). W przykładzie palenia / raka moglibyśmy prawdopodobnie zastosować to podejście, aby udowodnić, że palenie jest odpowiedzialne za smołę w płucach, ponieważ nie ma tak wielu możliwych źródeł.

Te inne sposoby „udowodnienia” przyczynowości nie zawsze są idealne z naukowego punktu widzenia, ponieważ nie są tak jednoznaczne jak prostszy eksperyment. Debata na temat globalnego ocieplenia jest doskonałym przykładem pokazującym, jak znacznie łatwiej jest odrzucić związek przyczynowy, który nie został jeszcze jednoznacznie udowodniony za pomocą powtarzalnego eksperymentu.

Dla komicznej ulgi, oto przykład eksperymentu, który jest technicznie możliwy, ale nie jest wskazany z przyczyn innych niż naukowe (moralność, etyka, PR, koszt):

Zdjęcie pochodzi z phroyd.tumblr.com

Piotr
źródło
3
To jest zbyt silny warunek. W epidemiologii wymagania są mniej surowe, ponieważ kontrolowanie eksperymentu jest w najlepszym wypadku niepraktyczne, aw najgorszym nieetyczne - „czy palenie papierosów powoduje raka”
295691
2
Przykładem, który Pearl podaje, że palenie powoduje raka u ludzi, jest metoda drzwi wejściowych, w której smoła jest postrzegana jako zmienna pośrednia między paleniem a rakiem. Nie wiem, co rozumiesz przez „nie idealny”. Jest to zdecydowanie bardziej idealne niż zmuszanie ludzi do palenia i sprawdzania, czy zachorują na raka!
Neil G
1
@Neil „To zdecydowanie bardziej idealne niż zmuszanie ludzi do palenia i sprawdzania, czy zachorują na raka” - Jeśli celem jest udowodnienie związku przyczynowego, zdecydowanie się nie zgadzam. Z drugiej strony, jeśli celem jest uniknięcie problemu etycznego, zmniejszonego finansowania lub linczu, to jest to idealne rozwiązanie, tak.
Peter
10

Niezależnie od tego, czy projekt jest eksperymentalny czy obserwacyjny, związek między zmienną A i wynikiem Y odzwierciedla związek przyczynowy między A i Y, jeśli nie ma otwartych ścieżek backdoor między A i Y.

W projekcie eksperymentalnym można to najłatwiej osiągnąć poprzez randomizację ekspozycji lub przypisanie do leczenia. Pomijając idealną randomizację, skojarzony efekt leczenia jest obiektywnym oszacowaniem przyczynowego efektu leczenia przy założeniach wymienności (przypisanie leczenia jest niezależne od wyników kontrfaktycznych), pozytywności itp.

Referencje

Hernan, Robins. Perłowa wnioskowanie przyczynowe
. Wnioskowanie przyczynowe w statystyce: przegląd

PS Możesz szukać w Google wnioskowania przyczynowego i następujących nazwisk (na początek), aby uzyskać więcej informacji na ten temat: Judea Pearl, Donald Rubin, Miguil Hernan.

Popiół
źródło
Spójrz tutaj: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Nie zgadzam się ze stwierdzeniem Asha: Niezależnie od tego, czy projekt jest eksperymentalny czy obserwacyjny, związek między zmienną A i wynikiem Y odzwierciedla związek przyczynowy między A i Y, jeśli istnieją brak otwartych ścieżek backdoor między A i Y. Na przykład sprzedaż lodów, śmierć Y w basenach; są skorelowane, ale przyczyną ich wzrostu lub spadku jest temperatura. Może Ash oznacza z otwartymi tylnymi drzwiami, obie zależą od trzeciej zmiennej, ale wtedy jego sformułowanie jest bardzo niejasne.
Karl
Ścieżka tylnych drzwi w twoim przykładzie to pora roku. Ścieżka backdoora oznacza trzecią zmienną.
Neil G
Dla osób niezaznajomionych z wkładem Judei Pearl w badania przyczynowości pomocne może być przeczytanie jego biografii ze strony internetowej Association for Computing Machinery, która przyznała mu nagrodę Turinga w 2011 roku. Pearl rozmawia o potrzebie uwzględnienia większej liczby dyskusji na temat wnioskowania przyczynowego w programach edukacji statystycznej w wywiadzie dla Amstat News .
jthetzel
Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
Gung - Przywróć Monikę
3

Rozważ wzrost współczynnika rozwodów, skorelowany ze wzrostem dochodów prawników.

Intuicyjnie wydaje się oczywiste, że wskaźniki te powinny być skorelowane. Więcej par (popyt) składa wniosek o więcej rozwodów, więc więcej prawników (podaż) podnosi swoje ceny.

Wydaje się, że wzrost współczynnika rozwodów powoduje wzrost dochodów prawników, ponieważ dodatkowy popyt ze strony par spowodował wzrost cen prawników.

A może to wstecz? Co jeśli prawnicy celowo i niezależnie podnieśli ceny, a następnie wydali nowy dochód na reklamy rozwodowe? To również wydaje się wiarygodnym wyjaśnieniem.

Ten scenariusz ilustruje dowolną liczbę trzecich zmiennych objaśniających, które może wykazać analiza statystyczna. Rozważ następujące:

  1. Nie możesz zmierzyć każdego punktu danych,
  2. Chcesz wyeliminować każdy nieprecyzyjny punkt danych,
  3. Możesz jedynie uzasadnić, dlaczego wyeliminować punkt danych, jeśli go zmierzysz.

Masz zagadkę. Nie możesz zmierzyć każdego punktu danych, jeśli chcesz uzasadnić ignorowanie niep wyjaśniających punktów danych, musisz je zmierzyć. (You can wyeliminować kilka punktów danych bez ich pomiaru, ale trzeba przynajmniej je uzasadniać.)

Żaden dowód związku przyczynowego nie może być poprawny w systemie nieograniczonym.

Miles Richardson
źródło
2

Jeśli A i B są skorelowane, a po wykluczeniu zbiegów okoliczności najprawdopodobniej albo A powoduje B, albo B powoduje A, lub jakaś nieznana przyczyna X powoduje zarówno A, jak i B.

Pierwszym krokiem byłoby zbadanie możliwego mechanizmu. Czy możesz pomyśleć o tym, w jaki sposób A może spowodować przypadek B, lub odwrotnie, lub o jakiej innej przyczynie X może powodować oba? (Zakłada się, że to badanie jest tańsze niż przeprowadzanie eksperymentu w celu udowodnienia przyczyny). Mamy nadzieję, że skończysz w sytuacji, w której warto wykazać eksperyment przyczynowo-skutkowy. Państwo może postępować, jeśli nie można myśleć o mechanizmie (A powoduje B, ale nie mamy pojęcia, dlaczego możliwość).

W tym eksperymencie musisz być w stanie dowolnie manipulować podejrzaną przyczyną (na przykład jeśli przyczyną jest „przyjmowanie pigułki A”, wówczas niektórzy ludzie przyjmą pigułkę, inni nie). Następnie podejmujesz zwykłe środki ostrożności, wybierając ludzi, którzy otrzymywali lub nie przyjmowali pigułki losowo, przy czym ani ty, ani osoby badane nie wiedziały, kto dostał pigułkę, a kto nie. Próbujesz również zachować resztę eksperymentu na tym samym poziomie (podawanie pigułki A ludziom w ładnym ciepłym pokoju ze słońcem wpadającym przez okno, podczas gdy druga grupa dostaje fałszywą pigułkę w brudnym, niewygodnym pomieszczeniu, może to tylko wpłynąć na twoje dane). Więc jeśli doszedłeś do wniosku, że jedyną różnicą jest ta pigułka, a przyczyną jej otrzymania lub jej nie była przypadkowa decyzja, która nie wpłynęła na nic innego,

gnasher729
źródło
2

Dane interwencyjne (eksperymentalne) opisane przez gnashera i Petera to najprostszy sposób na uzasadnienie związku przyczynowego. Jednak tylko odpowiedź Asha wspomina o możliwości wywnioskowania związku przyczynowego za pomocą danych obserwacyjnych. Dodatkowo metody backdoor , o której wspomina, metoda drzwi wejściowych jest kolejnym sposobem ustalenia związku przyczynowego na podstawie danych obserwacyjnych i niektórych założeń przyczynowych. Zostały one odkryte przez Judeę Pearl. Starałem się streścić i zapewnienia odniesienia do nich tutaj .

Neil G.
źródło
0

Aby złożyć oświadczenie przyczynowe, musisz mieć losowe próbkowanie i losowe przypisanie

  • Losowe pobieranie próbek: każda osoba ma jednakowe prawdopodobieństwo wyboru do badania
  • Losowe przypisanie: każda osoba w eksperymencie wykazuje nieco inną cechę.

Tak więc przy wyborze leczenia i grupy kontrolnej z powyższej grupy, z której pobrano próbkę, taka sama liczba osób o podobnej cechy powinna znajdować się zarówno w grupie leczonej, jak i kontrolnej.

Grupa terapeutyczna to grupa, w której lek podaje się ludziom. Grupa kontrolna to grupa, w której lek nie jest podawany. Możesz także zdefiniować grupę placebo której uczestnikom nie podaje się leku, ale mówi się, że jest podawany.

Wreszcie, jeśli efekty są widoczne w grupie leczonej, ale nie w grupie kontrolnej, możemy ustalić związek przyczynowy.

show_stopper
źródło
Moim zdaniem grupa placebo jest absolutnie wymagana. Ponadto osoby odpowiedzialne za obsługę osób testowych nie mogą wiedzieć, kto jest w której grupie („podwójnie ślepa”). Cokolwiek mniej uważam za zdecydowanie niewiarygodne. Testowanie nie jest łatwe.
mafu
Randomizowane kontrolowane próby placebo są bardziej autentyczne niż randomizowane kontrolowane próby, ale stwierdzenia przyczynowe mogą być składane za pomocą randomizowanych kontrolowanych prób
show_stopper
2
„Aby złożyć oświadczenie przyczynowe, musisz mieć losowe próbkowanie i losowe przypisanie” - to nieprawda. Zobacz metody na drzwiach wejściowych i tylnych.
Neil G