Rozumiem, że korelacja nie jest przyczyną . Załóżmy, że otrzymujemy wysoką korelację między dwiema zmiennymi. Jak sprawdzić, czy ta korelacja jest rzeczywiście spowodowana przyczyną? Lub, pod jakimi dokładnie warunkami możemy wykorzystać dane eksperymentalne, aby wywnioskować związek przyczynowy między dwiema lub więcej zmiennymi?
correlation
mathematical-statistics
causality
Manish Barnwal
źródło
źródło
X
iY
wybrać ten jeden jako przyczynę drugi, który zminimalizuje poczucie odpowiedzialności i zmaksymalizować poczucie losu.Odpowiedzi:
Bardzo prawdopodobnym powodem korelacji 2 zmiennych jest to, że ich zmiany są powiązane z trzecią zmienną. Innymi prawdopodobnymi przyczynami są przypadek (jeśli przetestujesz wystarczającą liczbę nieskorelowanych zmiennych do korelacji, niektóre wykażą korelację) lub bardzo złożone mechanizmy, które wymagają wielu kroków.
Zobacz http://tylervigen.com/ przykładów takich jak ten:
Aby pewnie stwierdzić związek przyczynowy A -> B, potrzebujesz eksperymentu, w którym możesz kontrolować zmienną A i nie wpływać na inne zmienne. Następnie mierzysz, czy korelacja A i B nadal istnieje, jeśli zmienisz zmienną.
W prawie wszystkich praktycznych zastosowaniach prawie nie jest możliwe, aby nie wpływać również na inne (często nieznane) zmienne, dlatego najlepiej możemy udowodnić brak związku przyczynowego.
Aby móc określić związek przyczynowy, zaczynasz od hipotezy, że 2 zmienne mają związek przyczynowy, użyj eksperymentu, aby obalić hipotezę, a jeśli ci się nie uda, możesz stwierdzić z pewnym stopniem pewności, że hipoteza jest prawdziwa. To, jak wysoki musi być Twój poziom pewności, zależy od dziedziny badań.
W wielu dziedzinach powszechne lub konieczne jest równoległe prowadzenie 2 części eksperymentu, jednej, w której zmienna A jest zmieniana, i grupy kontrolnej, w której zmienna A nie jest zmieniana, ale eksperyment jest inny dokładnie taki sam - np. W przypadku lekiem, który nadal przykleja się pacjentom igłą lub powoduje, że połykają tabletki. Jeśli eksperyment wykazuje korelację między A i B, ale nie między A i B '(B grupy kontrolnej), możesz założyć związek przyczynowy.
Istnieją również inne sposoby wnioskowania o przyczynowości, jeśli eksperyment jest albo niemożliwy, albo niewskazany z różnych powodów (moralność, etyka, PR, koszt, czas). Jednym z powszechnych sposobów jest zastosowanie odliczenia. Biorąc przykład z komentarza: aby udowodnić, że palenie powoduje raka u ludzi, możemy użyć eksperymentu, aby udowodnić, że palenie powoduje raka u myszy, a następnie udowodnić, że istnieje korelacja między paleniem a rakiem u ludzi, i wywnioskować, że dlatego jest niezwykle prawdopodobnie palenie powoduje raka u ludzi - dowód ten można wzmocnić, jeśli również obalimy, że rak powoduje palenie. Innym sposobem na stwierdzenie przyczynowości jest wykluczenie innych przyczyn korelacji, pozostawiając przyczynowość jako najlepsze pozostałe wyjaśnienie korelacji - ta metoda nie zawsze ma zastosowanie, ponieważ czasami niemożliwe jest wyeliminowanie wszystkich możliwych przyczyn korelacji (zwanych „ścieżkami tylnymi drzwiami” w innej odpowiedzi). W przykładzie palenia / raka moglibyśmy prawdopodobnie zastosować to podejście, aby udowodnić, że palenie jest odpowiedzialne za smołę w płucach, ponieważ nie ma tak wielu możliwych źródeł.
Te inne sposoby „udowodnienia” przyczynowości nie zawsze są idealne z naukowego punktu widzenia, ponieważ nie są tak jednoznaczne jak prostszy eksperyment. Debata na temat globalnego ocieplenia jest doskonałym przykładem pokazującym, jak znacznie łatwiej jest odrzucić związek przyczynowy, który nie został jeszcze jednoznacznie udowodniony za pomocą powtarzalnego eksperymentu.
Dla komicznej ulgi, oto przykład eksperymentu, który jest technicznie możliwy, ale nie jest wskazany z przyczyn innych niż naukowe (moralność, etyka, PR, koszt):
źródło
Niezależnie od tego, czy projekt jest eksperymentalny czy obserwacyjny, związek między zmienną A i wynikiem Y odzwierciedla związek przyczynowy między A i Y, jeśli nie ma otwartych ścieżek backdoor między A i Y.
W projekcie eksperymentalnym można to najłatwiej osiągnąć poprzez randomizację ekspozycji lub przypisanie do leczenia. Pomijając idealną randomizację, skojarzony efekt leczenia jest obiektywnym oszacowaniem przyczynowego efektu leczenia przy założeniach wymienności (przypisanie leczenia jest niezależne od wyników kontrfaktycznych), pozytywności itp.
Referencje
Hernan, Robins. Perłowa wnioskowanie przyczynowe
. Wnioskowanie przyczynowe w statystyce: przegląd
PS Możesz szukać w Google wnioskowania przyczynowego i następujących nazwisk (na początek), aby uzyskać więcej informacji na ten temat: Judea Pearl, Donald Rubin, Miguil Hernan.
źródło
Rozważ wzrost współczynnika rozwodów, skorelowany ze wzrostem dochodów prawników.
Intuicyjnie wydaje się oczywiste, że wskaźniki te powinny być skorelowane. Więcej par (popyt) składa wniosek o więcej rozwodów, więc więcej prawników (podaż) podnosi swoje ceny.
Wydaje się, że wzrost współczynnika rozwodów powoduje wzrost dochodów prawników, ponieważ dodatkowy popyt ze strony par spowodował wzrost cen prawników.
A może to wstecz? Co jeśli prawnicy celowo i niezależnie podnieśli ceny, a następnie wydali nowy dochód na reklamy rozwodowe? To również wydaje się wiarygodnym wyjaśnieniem.
Ten scenariusz ilustruje dowolną liczbę trzecich zmiennych objaśniających, które może wykazać analiza statystyczna. Rozważ następujące:
Masz zagadkę. Nie możesz zmierzyć każdego punktu danych, jeśli chcesz uzasadnić ignorowanie niep wyjaśniających punktów danych, musisz je zmierzyć. (You can wyeliminować kilka punktów danych bez ich pomiaru, ale trzeba przynajmniej je uzasadniać.)
Żaden dowód związku przyczynowego nie może być poprawny w systemie nieograniczonym.
źródło
Jeśli A i B są skorelowane, a po wykluczeniu zbiegów okoliczności najprawdopodobniej albo A powoduje B, albo B powoduje A, lub jakaś nieznana przyczyna X powoduje zarówno A, jak i B.
Pierwszym krokiem byłoby zbadanie możliwego mechanizmu. Czy możesz pomyśleć o tym, w jaki sposób A może spowodować przypadek B, lub odwrotnie, lub o jakiej innej przyczynie X może powodować oba? (Zakłada się, że to badanie jest tańsze niż przeprowadzanie eksperymentu w celu udowodnienia przyczyny). Mamy nadzieję, że skończysz w sytuacji, w której warto wykazać eksperyment przyczynowo-skutkowy. Państwo może postępować, jeśli nie można myśleć o mechanizmie (A powoduje B, ale nie mamy pojęcia, dlaczego możliwość).
W tym eksperymencie musisz być w stanie dowolnie manipulować podejrzaną przyczyną (na przykład jeśli przyczyną jest „przyjmowanie pigułki A”, wówczas niektórzy ludzie przyjmą pigułkę, inni nie). Następnie podejmujesz zwykłe środki ostrożności, wybierając ludzi, którzy otrzymywali lub nie przyjmowali pigułki losowo, przy czym ani ty, ani osoby badane nie wiedziały, kto dostał pigułkę, a kto nie. Próbujesz również zachować resztę eksperymentu na tym samym poziomie (podawanie pigułki A ludziom w ładnym ciepłym pokoju ze słońcem wpadającym przez okno, podczas gdy druga grupa dostaje fałszywą pigułkę w brudnym, niewygodnym pomieszczeniu, może to tylko wpłynąć na twoje dane). Więc jeśli doszedłeś do wniosku, że jedyną różnicą jest ta pigułka, a przyczyną jej otrzymania lub jej nie była przypadkowa decyzja, która nie wpłynęła na nic innego,
źródło
Dane interwencyjne (eksperymentalne) opisane przez gnashera i Petera to najprostszy sposób na uzasadnienie związku przyczynowego. Jednak tylko odpowiedź Asha wspomina o możliwości wywnioskowania związku przyczynowego za pomocą danych obserwacyjnych. Dodatkowo metody backdoor , o której wspomina, metoda drzwi wejściowych jest kolejnym sposobem ustalenia związku przyczynowego na podstawie danych obserwacyjnych i niektórych założeń przyczynowych. Zostały one odkryte przez Judeę Pearl. Starałem się streścić i zapewnienia odniesienia do nich tutaj .
źródło
Aby złożyć oświadczenie przyczynowe, musisz mieć losowe próbkowanie i losowe przypisanie
Tak więc przy wyborze leczenia i grupy kontrolnej z powyższej grupy, z której pobrano próbkę, taka sama liczba osób o podobnej cechy powinna znajdować się zarówno w grupie leczonej, jak i kontrolnej.
Grupa terapeutyczna to grupa, w której lek podaje się ludziom. Grupa kontrolna to grupa, w której lek nie jest podawany. Możesz także zdefiniować grupę placebo której uczestnikom nie podaje się leku, ale mówi się, że jest podawany.
Wreszcie, jeśli efekty są widoczne w grupie leczonej, ale nie w grupie kontrolnej, możemy ustalić związek przyczynowy.
źródło