Wiem, że pytanie zostało zadane miliard razy, więc po zapoznaniu się z Internetem jestem w pełni przekonany, że korelacja między 2 zmiennymi nie oznacza związku przyczynowego. W jednym z moich dzisiejszych wykładów statystycznych mieliśmy wykład gościnny z fizykiem na temat znaczenia metod statystycznych w fizyce. Powiedział zdumiewające oświadczenie:
korelacja nie oznacza związku przyczynowego, JEŻELI jedną ze zmiennych jest czas. Tak więc, jeśli istnieje silna korelacja między pewną zmienną niezależną a czasem, oznacza to również związek przyczynowy.
Nigdy wcześniej nie słyszałem tego oświadczenia. Czy fizycy / relatywiści widzą „przyczynowość” inaczej niż statystyki ludzi?
correlation
mathematical-statistics
causality
Thomas Moore
źródło
źródło
Odpowiedzi:
Podam inną odpowiedź, ponieważ uważam, że te obecnie podane pomijają ważny punkt wypowiedzi fizyka. Cytowane oświadczenie to:
Fizyk nie mówi:
To by było niepoprawne. Co fizyk jest powiedzenie brzmi:
Przykładem może być entropia. Jeśli mamy silną korelację między upływem czasu a wzrostem entropii, możemy powiedzieć, że wzrost czasu powoduje wzrost entropii. Zauważ, że ignoruje to fizyczne przyczyny rosnącej entropii (rozpad cząstek, rozszerzanie się wszechświata itp.).
Jednym z tradycyjnych wymagań dla związku przyczynowego jest progresja czasu, mianowicie, że X może powodować Y tylko wtedy, gdy X pojawi się przed Y. Ale jeśli jedna ze zmiennych JEST czasem, to progresja czasu jest już wbudowana w relację (jeśli relacja istnieje).
EDYCJA: W oparciu o różnorodne komentarze dodam następujące. Myślę, że fizyk może tu używać innego pojęcia słowa „związek przyczynowy”. Wydaje się, że mówi, że jeśli istnieje korelacja między zmienną niezależną a czasem, można stwierdzić, że zmienna niezależna zmienia się przewidywalnie w miarę upływu czasu. Niektórzy ludzie mogą powiedzieć, że zmiany są „spowodowane” upływem czasu, nie tak naprawdę statystycy używają słów „przyczyna” lub „przyczyna”, więc może to powodować pewne zamieszanie.
źródło
Nie wiemy, co miał na myśli fizyk. Następują dwie różne interpretacje.
Twierdzenie, że poprzedzający i skorelowane z oznacza, że powoduje, że jest błędne. To nie wystarczy dla i będzie zależny nawet jeśli poprzedza . Na przykład, i mogą być spowodowane zarówno przez innej zmiennej : . Lub może powstać jeszcze bardziej skomplikowany wzór: gdzie obserwuje sięTeraz iY Y X Y X Y X Y X Y W X ← W → Y X ← V → Z ← W → Y Z X YX Y Y X Y X Y X Y X Y W X←W→Y X←V→Z←W→Y Z X Y są zależne i nie mają wspólnej przyczyny, ale żadna nie powoduje drugiej.
Jednak pierwszeństwo czasowe znacznie upraszcza warunki do stwierdzenia związku przyczynowego, które można znaleźć w książce przyczynowej Pearl'a, rozdział 2.7 „Lokalne kryteria relacji przyczynowych”.
Zasadniczo, (1) oznacza, że jest potencjalną przyczyną podano Pierwszeństwo czasowe, oraz (2) wynika, że jest w stanie przebić się, że związek, który może zdarzyć się tylko wtedy, gdy powoduje .Y X X YZ Y X X Y
Ten warunek jest znacznie prostszy niż definicja Pearl dla prawdziwej przyczyny bez informacji czasowych.
Inna możliwość przedstawiono w niektórych innych odpowiedzi jest to, że fizyka rozumie się, że jeśli jest z upływem czasu i jest skorelowana z , a powoduje . To stwierdzenie jest poprawne, ale nieprecyzyjne, ponieważ upływ czasu jest przyczyną wszystkich innych zmiennych, przez co rozumiem, że przyczynowa struktura graficzna jest właśnie taka. Przyczynowa struktura graficzna jest zbiorem twierdzeń o relacjach niezależności, biorąc pod uwagę obserwacje i interwencje.T X TX Y X Y
źródło
Spekuluję, że twój gościnny wykładowca miał na myśli, że w fizyce jedyne korelacje, które przetrwają replikację, to te, w których istnieje związek przyczynowy. Zmienna czasowa jest wyjątkiem, ponieważ jest jedyną zmienną, która nie jest kontrolowana przez fizyka. Dlatego.
W fizyce zwykle mamy do czynienia z powtarzalnymi zjawiskami i eksperymentami. W rzeczywistości jest prawie pewne, że każdy eksperyment jest powtarzalny i może być powtórzony przez ciebie w późniejszym czasie lub przez innych badaczy. Powiedzmy, że obserwujesz próbkę, w której są obserwacjami zmiennej zainteresowania i zmiennych niezależnych . Jak wspomniałem powyżej, w pełni kontrolujemy zmienne i możemy ustawić je na dowolną wartość, jaką chcemy. x k x kyi,xki xk xk
Twój fizyk mówi, że w tej konfiguracji nie zobaczysz żadnej korelacji chyba że istnieje związek przyczynowy. Czemu? Ponieważ ktoś inny lub ty sam powtórzy eksperyment z dowolną kombinacją i sekwencją i tylko korelacje z relacjami przyczynowymi przetrwają replikację eksperymentu. Wszystkie inne (fałszywe) korelacje znikną po zebraniu wystarczającej ilości danych we wszystkich możliwych kombinacjach eksperymentu.x k jCorr[y,xk] xkj
Ta sytuacja kontrastuje z naukami społecznymi i niektórymi aplikacjami biznesowymi, w których nie można przeprowadzać eksperymentów. Obserwujesz tylko jedną sekwencję PKB danego kraju i nie możesz zmienić bezrobocia utrzymującego wszystkie pozostałe wartości na tym samym poziomie i obserwować korelacje.
Czas jest jedyną zmienną, której fizyk nie jest w stanie kontrolować. Jest tylko jeden 1 stycznia 2017 r. Tego dnia nie może powtórzyć. Może powtórzyć dowolną inną zmienną, ale nie czas. Dlatego jeśli chodzi o czas ( nie upływ czasu ani wiek), fizyk jest na tej samej łodzi, co wszyscy inni: korelacja nie oznacza dla niego związku przyczynowego.
źródło
Nie słyszałem tego wcześniej, i to byłoby nie być prawdziwe według koncepcji przyczynowości, które znam (choć nie jestem fizykiem).
Zazwyczaj, aby spowodował , konieczne jest, aby wyprzedził w czasie. Więc jeśli poprzedza to nie może być „spowodowane” przez , niezależnie od jakiejkolwiek korelacji. Co więcej, poprzedzający nie jest wystarczającym warunkiem przyczynowości (także niezależnie od jakiejkolwiek korelacji).Y X Y Y X X X YX Y X Y Y X X X Y
źródło
Nie sądzę, żeby czas był w tym wyjątkowy, ale z pewnością jest to dobry przykład. Chodzi o to, że zazwyczaj, jeśli A i B są skorelowane, możesz przypuszczać, że istnieje pewna powszechna przyczynowość, ale nie wiesz, czy A powoduje B lub B powoduje A, a może trzecia zmienna C powoduje zarówno A, jak i B. , w niektórych przypadkach możesz wykluczyć, że jakakolwiek inna zmienna spowodowała A, a więc musi być tak, że A spowodowała B. Jednym z takich przykładów jest kontrolowany eksperyment, w którym Ty , eksperymentator, kontrolujesz A. Następnie, jeśli wprowadzisz zmianę „Koreluje” ze zmianą B, wiesz, że to musiał być A, który spowodował zmianę B, a nie na odwrót.
Innym rodzajem scenariusza, którym jest ten przykład z czasem, jest to, że po prostu wiesz, że żadna inna zmienna nie mogła spowodować A, ponieważ wiesz, że nic nie może wpłynąć na A. Ponieważ czas płynie tylko jedna sekunda naraz, niezależnie jakiejkolwiek innej zmiennej na świecie, to jeśli czas koreluje ze zmianami w jakiejś zmiennej, którą jesteś zainteresowany (powiedzmy, liczbą ludzi na planecie), wiesz na pewno, że upływ czasu musiał spowodować zmianę tej zmiennej, a raczej niż twoja zmienna powodująca upływ czasu lub inną zmianę (tj. czas nie płynął do przodu, ponieważ urodziło się więcej ludzi, musi być na odwrót).
Nadal nie wiesz oczywiście, czy przyczynowość jest bezpośrednia. Przypuszczalnie sam upływ czasu nie powoduje automatycznie powstania większej liczby ludzi. Rozwijająca się historia powoduje raczej postęp w różnych aspektach społeczeństwa, co powoduje wzrost liczebności populacji (a nawet jest to uproszczenie wielu drobnych związków przyczynowych). Ale niezależnie od dokładnych czynników w grze, zdecydowanie wiesz, że A (ostatecznie) prowadzi do B, a nie na odwrót.
źródło
W rzeczywistości korelacja implikuje związek przyczynowy.
Być może A spowodowało B, lub C spowodowało A i B.
Jednak korelacja nie dowodzi związku przyczynowego.
To oczywiste.
źródło
Zinterpretowałbym to jako argument semantyczny, a nie matematyczny / statystyczny. Uznałbym to również za dość surowe uogólnienie.
W Kryteria Hilla , często stosowane w epidemiologii, stanowią dobre ramy myślenia o przyczynowości. Nic nie może definitywnie udowodnić związku przyczynowego, niezależnie od tego, czy czas jest czynnikiem, i podejrzewam, że wykładowca nie próbował tak silnie twierdzić. Jednak wiele różnych czynników można wykorzystać jako uzasadnione argumenty na temat związku przyczynowego.
Na przykład kryteria Bradford Hill sugerują, że siła powiązania między zmiennymi może dostarczyć dowodów na związek przyczynowy, ale sama w sobie nie jest wystarczająca. Podobnie związek, który jest zgodny z innymi znanymi / przekonanymi faktami, może sugerować związek przyczynowy silniej niż związek, który jest niezgodny z dominującą wiedzą. Czasowość jest również jednym z kryteriów - przyczyna powinna poprzedzać jej skutek. Stowarzyszenie i wnioski, które wyciągamy na temat związku przyczynowego, muszą mieć sens doczesny. Polecam przejrzenie innych kryteriów. Niektóre są specyficzne dla epidemiologii i nie mają tak dużego zastosowania do fizyki, ale nadal jest to przydatny sposób myślenia.
Chodzi przede wszystkim o to, że chociaż żaden dowód nie może ostatecznie udowodnić związku przyczynowego, można na jego podstawie zbudować dobry argument na podstawie szeregu różnych kontroli logicznych. Twierdziłbym, że nadanie absolutnego pierwszeństwa jednemu kryterium, na przykład czasowi, nie jest właściwe, ale czasowość może być ważnym czynnikiem w uzasadnieniu, że związek przyczynowy jest prawdopodobny.
Prowadzi to do szerszego punktu dotyczącego statystyki: ogólnie rzecz biorąc, używamy statystyk, aby przedstawić argument. Używamy danych i narzędzi statystycznych, aby ustalić konkretny punkt. Często te same dane (a nawet te same narzędzia) mogą być wykorzystywane do tworzenia sprzecznych punktów. Nie możemy znaleźć ostatecznego dowodu związku przyczynowego w samej matematyce, ale możemy wdrożyć nasze narzędzia statystyczne jako część szerszego argumentu. Aby uzyskać więcej informacji na ten temat, polecam Statystyka Abelsona jako zasadny argument.
Aby powrócić do pierwotnej sytuacji, powiedzmy, że przeprowadziłeś eksperyment dotyczący wpływu stężenia określonej substancji chemicznej w roztworze na temperaturę tego roztworu. Podejrzewasz, że dodanie większej ilości tej substancji chemicznej spowoduje reakcję, która podniesie temperaturę. Z czasem dodajesz coraz więcej. Możesz spojrzeć na temperaturę w czasie i zobaczyć wzrost. Wszystko to pokazuje, że temperatura rośnie z czasem; nie dowodzi, że sam czas (czy cokolwiek innego, jeśli o to chodzi) ma jakiś skutek przyczynowy. Dostarcza jednak pewnych dowodów w szerszym argumencie, że zwiększenie stężenia tej substancji chemicznej powoduje reakcję, która powoduje wzrost temperatury.
źródło
To zdanie jest dość proste i nie jest warte przemyślenia (i nie ma nic wspólnego z pierwszeństwem).
Jeśli istnieje ustalona korelacja między zmienną a czasem (tj. Wiemy, że wzrostowi czasu towarzyszy wzrost zmiennej, i to jest dane ), to znamy kierunek „przyczynowy”: tzn. Wzrost czasu powoduje zmienna do zwiększenia.
Ponieważ alternatywna hipoteza „nie, może być tak, że czas tylko wzrósł, ponieważ zmienna najpierw wzrosła ” po prostu nie może znieść, biorąc pod uwagę sposób działania czasu.
Może to zabrzmieć jak głupia obserwacja, ale ma ważne implikacje dla projektu badania próbującego udowodnić przyczynowość. Ważnym przykładem w medycynie jest różnica między badaniem przekrojowym a kohortowym.
Np. Badanie przekrojowe, próbujące znaleźć związek między paleniem a rakiem, może objąć grupę ludzi, podzielić je na palących i niepalących i sprawdzić, ile osób w każdej grupie ma raka w porównaniu z rakiem bez raka. Jest to jednak słaby dowód, ponieważ korelację między paleniem a rakiem można również interpretować jako „osoby z rakiem chętniej podejmują palenie”.
Jeśli jednak przeprowadzisz badanie kohortowe, tj. Weź grupę palaczy i grupę osób niepalących, i obserwuj ich w czasie, i zmierz zmienną „rak u palaczy minus rak u osób niepalących” i ustal dodatni wynik korelacja tej zmiennej z czasem (przy rozsądnych założeniach, takich jak to, że raz rozpoczęte palenie jest stałe i niezależne od czasu itp.), wtedy wiesz, że „czas” jest przyczyną różnicy między rakami, ponieważ nie możesz twierdzić, że zwiększone wskaźniki zachorowań na raka spowodowało, że więcej czasu minęło w grupie palaczy. Dlatego możesz twierdzić, że istnieje związek między upływem czasu a pozytywną różnicą w raku związaną z wyższymi wskaźnikami w grupie palaczy. (lub, mówiąc prościej, czas spędzony w grupie palącej powoduje proporcjonalny wzrost ryzyka raka).
Co więcej, słabość badania przekrojowego, tj. Możliwość, że „ludzie z chorobą nowotworową częściej podejmują palenie” zniknęła już za oknem, ponieważ palenie jako zmienną zostało usunięte z „czasu kontra rak” równanie (tutaj zakłada się, że jest stałe i dlatego nie ma na niego wpływu czas). Innymi słowy, formułując badanie w ten sposób, zbadaliśmy bardzo konkretny kierunek przyczynowy . Gdybyśmy chcieli zbadać, w jakim stopniu stosuje się odwrotny kierunek przyczynowy (tj. Jak prawdopodobne jest, że ludzie, którzy w końcu zachorują na raka, podejmą palenie w miarę upływu czasu), koniecznie musielibyśmy zaprojektować badanie kohortowe z podziałem na „przyszły rak kontra rak przyszłości” i mierzyć rozpowszechnienie palenia w miarę upływu czasu.
Zaktualizuj odpowiedzi na komentarze:
Zauważ, że jest to dyskusja na temat przyczynowego kierunku, a nie na temat znalezienia bezpośredniego związku przyczynowego. Kwestia pomieszania jest osobna. (czyli nie ma nic sugerować, że nie jest niezależną trzecią zmienną, która zarówno sprawia, że bardziej prawdopodobne jest palaczem i zwiększa szanse na raka z upływem czasu). Tj. Jeśli chodzi o przyczynowość alternatywną, nie wykazaliśmy ostatecznie, że „gdyby nie palenie, ludzie ci nie zachorowaliby na raka”. Ale my mamywykazał, że „związek między grupą palącą a rakiem nie zwiększyłby się, gdyby nie minął czas”. (tj. powiązanie nie polega na migawce osób cierpiących na raka jedynie na preferowaniu bycia w grupie palącej, czy nie, ale z czasem ulega wzmocnieniu).
źródło
To jest naprawdę pytanie, jak ustalić przyczynowość, ponieważ zdarzenia, które są powiązane, ale nie są przyczyną, prawdopodobnie będą skorelowane w czasie lub przestrzeni. Patrząc na niektóre skorelowane dane, w jaki sposób możemy ustalić, czy związek jest zależny? Pewien mądry doradca ds. Badań powiedział mi kiedyś: „korelacja nie oznacza związku przyczynowego, po prostu mówi, gdzie szukać”.
Rozważmy sytuację, w której zdarzenia A i B są skorelowane czasowo lub przestrzennie. Jeśli chcielibyśmy zbadać przyimek, który powoduje B , tradycyjnym tokiem myślenia jest wprowadzenie testów konieczności i wystarczalności - co tak naprawdę oznacza przyczynowość.
Jeśli brak mleka powoduje, że idę do sklepu , mówimy nie o tym, że wsiadam do pustego mleka i jeżdżę samochodem. Bezwzględna przyczynowość oznaczałaby, że ilekroć mam jeszcze mleko , nie przeszkadza mi pójście do sklepu; i odwrotnie, ilekroć jestem w sklepie, to dlatego , że nie mam mleka. Teraz łatwo jest dostrzec problem z pozytywnym ustaleniem związku przyczynowego w ścisłym znaczeniu: większość rzeczy nie jest absolutnie przyczynowa. Istnieje wiele innych powodów, dla których mogę iść do sklepu, które nie są związane ze stanem mlecznym.
Jest to łatwy sposób na odróżnienie świetnego papieru od dobrego papieru. W dokładnych badaniach zobaczysz wszędzie testy wystarczalności i konieczności. Czy twierdzisz, że małocząsteczkowy lek A może prowadzić do demontażu kompleksu białkowego B? Natychmiast zobaczysz testy:
konieczność
----test---- ----result---- everything but B --> [nothing] (check for false positive) everything but A --> assembled everything with A-like compound --> assembled (control group)
dostateczność
A + B alone (in vitro) --> disassembled (check for false negative) A + B + everything --> disassembled (trial group)
Jest to tradycyjny sposób, w jaki budowałbyś indukcyjny argument za przyczynowością eksperymentalnie KORZYSTAJĄC, do czego jestem pewien, że Twój wykładowca wymykał się!
źródło