Właśnie miałem egzamin, w którym przedstawiono nam dwie zmienne. W grze dyktatorskiej, w której dyktator otrzymuje 100 USD i może sam zdecydować, ile wysłać lub zatrzymać dla siebie, istniała dodatnia korelacja między wiekiem a ilością pieniędzy, które uczestnicy postanowili zatrzymać.
Uważam, że nie można wywnioskować z tego przyczynowości, ponieważ nie można wywnioskować związku przyczynowego z korelacji. Mój kolega z klasy uważa, że możesz, bo jeśli, na przykład, podzielisz uczestników na trzy osobne grupy, możesz zobaczyć, jak różnią się między sobą, ile trzymają i ile dzielą, i dlatego doszedłem do wniosku, że wiek sprawia, że więcej. Kto ma rację i dlaczego?
correlation
causality
JonnyBravo
źródło
źródło
Odpowiedzi:
Zasadniczo nie należy zakładać, że korelacja implikuje związek przyczynowy - nawet w przypadkach, gdy wydaje się, że jest to jedyny możliwy powód.
Weź pod uwagę, że istnieją inne rzeczy, które korelują na przykład z pokoleniowymi aspektami kultury. Być może te trzy grupy pozostaną takie same, mimo że wszystkie się starzeją, ale następne pokolenie przełamie ten trend?
Biorąc to wszystko pod uwagę, prawdopodobnie masz rację, że młodsi ludzie są bardziej skłonni do zatrzymywania większej ilości, ale pamiętaj, że istnieją inne możliwości.
źródło
Mogę postulować kilka przyczyn na podstawie twoich danych.
Mierzy się wiek, a następnie ilość przechowywanych pieniędzy. Starsi uczestnicy wolą trzymać więcej pieniędzy (być może są mądrzejsi lub mniej idealistyczni, ale nie o to chodzi).
Mierzona jest ilość przechowywanych pieniędzy, a następnie wiek. Ludzie, którzy mają więcej pieniędzy, spędzają więcej czasu na ich liczeniu i dlatego są starsi, gdy mierzy się wiek.
Chorzy zatrzymują więcej pieniędzy, ponieważ potrzebują pieniędzy na (ewentualnie ratujące życie) leki lub leczenie. Rzeczywista korelacja zachodzi między chorobą a utrzymywanymi pieniędzmi, ale zmienna ta jest „ukryta” i dlatego dochodzimy do błędnego wniosku, ponieważ wiek i prawdopodobieństwo choroby korelują w grupie demograficznej osób wybranych do eksperymentu.
(Pomijając 143 teorie; muszę to dość krótko)
Wniosek: masz rację, ale twój kolega z klasy może twierdzić, że ma 147 razy więcej korekt.
Inną znaną korelacją jest niskie IQ i godziny oglądania telewizji codziennie. Czy oglądanie telewizji jest głupie, czy głupi ludzie oglądają więcej telewizji? To może być nawet jedno i drugie.
źródło
Wnioskowanie o przyczynowości na podstawie ogólnej korelacji jest problematyczne, ponieważ może istnieć wiele innych przyczyn tej korelacji. Na przykład fałszywe korelacje wynikające z czynników zakłócających , stronniczości selekcji (np. Tylko wybieranie uczestników o przychodzie poniżej pewnego progu) lub efekt przyczynowy może po prostu iść w innym kierunku (np. Termometr jest skorelowany z temperaturą, ale z pewnością nie powoduje to). W każdym z tych przypadków procedura twojego kolegi z klasy może znaleźć przyczynowo skutkowy efekt, którego nie ma.
Jeśli jednak uczestnicy zostali wybrani losowo, moglibyśmy wykluczyć pomyłki i stronniczość selekcji. W takim przypadku albo wiek musi powodować zatrzymanie pieniędzy, albo pieniądze przechowywane muszą spowodować wiek . To ostatnie oznaczałoby, że zmuszenie kogoś do zatrzymania określonej kwoty pieniędzy w jakiś sposób zmieniłby ich wiek. Możemy więc bezpiecznie założyć, że wiek powoduje, że pieniądze są przechowywane .
Należy zauważyć, że efekt przyczynowy może być „bezpośredni” lub „pośredni” . Ludzie w różnym wieku otrzymają inne wykształcenie, różną ilość bogactwa itp. Z tych powodów mogą zdecydować o zatrzymaniu innej kwoty 100 USD. Skutki przyczynowe za pośrednictwem tych mediatorów są nadal skutkami przyczynowymi, ale są pośrednie.
źródło
Korelacja jest pojęciem matematycznym; przyczynowość jest ideą filozoficzną.
Z drugiej strony, fałszywa korelacja jest głównie techniczną (nie znajdziesz jej w podręcznikach prawdopodobieństwa teoretycznego prawdopodobieństwa), którą można zdefiniować w sposób, który jest w większości możliwy do wykonania.
Ta idea jest ściśle związana z ideą fałszerstwa w nauce - gdzie celem nigdy nie jest udowodnienie rzeczy, a jedynie ich obalenie .
Statystyka dotyczy matematyki, podobnie jak medycyna - biologii. Zostaniesz poproszony o dokonanie najlepszego osądu przy wsparciu bogatej wiedzy technicznej, ale ta wiedza nigdy nie wystarcza, aby objąć cały świat. Więc jeśli zamierzasz osądzać jako statystyki i przedstawiać je innym, musisz przestrzegać określonych standardów jakości; to znaczy, że dajesz solidne rady, dając im wartość ich pieniędzy. Oznacza to również uwzględnienie asymetrii ryzyka - w badaniach medycznych koszt uzyskania fałszywie ujemnego wyniku (który może uniemożliwić wcześniejsze rozpoczęcie leczenia) może być wyższy niż koszt podania fałszywie dodatniego wyniku (co powoduje stres) .
W praktyce standardy te będą się różnić w zależności od pola - czasem są to RCT z potrójnie ślepą próbą, czasem zmienne instrumentalne i inne techniki kontroli odwrotnej przyczynowości i ukrytych wspólnych przyczyn, czasem przyczynowość Grangera - że coś w przeszłości konsekwentnie koreluje z coś innego w obecności, ale nie w odwrotnym kierunku. Może to być nawet rygorystyczna legalizacja i wzajemna walidacja.
źródło
Zależność między korelacją a przyczynami od stuleci zaskoczyła zarówno filozofów, jak i statystów. Wreszcie, w ciągu ostatnich dwudziestu lat informatycy twierdzą, że wszystko to rozwiązali. Nie wydaje się to być powszechnie znane. Na szczęście Judea Pearl, główny wykonawca w tej dziedzinie, opublikowała niedawno książkę wyjaśniającą tę pracę popularnej publiczności: The Book of Why.
https://www.amazon.com/Book-Why-Science-Cause-Effect/dp/046509760X
https://bigthink.com/errors-we-live-by/judea-pearls-the-book-of-why-brings-news-of-a-new-science-of-causes
Ostrzeżenie spoilera: W niektórych okolicznościach możesz wywnioskować związek przyczynowy z korelacji, jeśli wiesz, co robisz. Na początek należy przyjąć pewne założenia przyczynowe (model przyczynowy, najlepiej oparty na nauce). I potrzebujesz narzędzi do wnioskowania kontrfaktycznego (The do-algebra). Przykro mi, ale nie mogę tego streścić w kilku wierszach (sam wciąż czytam książkę), ale myślę, że odpowiedź na to pytanie już tam jest.
źródło
Roszczenie przyczynowe dotyczące wieku byłoby w tym przypadku niewłaściwe
Problem z twierdzeniem o przyczynowości w projekcie pytania egzaminacyjnego można sprowadzić do jednego prostego faktu: starzenie się nie było leczeniem, wiek w ogóle nie był zmanipulowany. Głównym powodem wykonywania badań kontrolowanych jest właśnie to, że z powodu manipulacji i kontroli nad zmiennymi będącymi przedmiotem zainteresowania można powiedzieć, że zmiana jednej zmiennej powoduje zmianę wyniku (w wyjątkowo specyficznych warunkach eksperymentalnych i przy obciążeniu łodzi innych założeń, takich jak losowe przypisanie, i że eksperymentator nie spieprzył czegoś w szczegółach wykonania, które tutaj swobodnie przeglądam).
Ale nie tak opisuje projekt egzaminu - po prostu ma dwie grupy uczestników, z jednym konkretnym faktem, który ich różni (ich wiek); ale nie masz możliwości poznania innych różnic między grupą. Z powodu braku kontroli nie można wiedzieć, czy różnica wieku spowodowała zmianę wyniku, czy też dlatego, że 40-latkowie dołączają do badania, ponieważ potrzebują pieniędzy, podczas gdy 20-latkowie byli uczniowie, którzy brali udział w zaliczeniu zajęć, a więc mieli różne motywacje - lub jedną z tysiąca innych możliwych naturalnych różnic w waszych grupach.
Teraz terminologia techniczna dla tego rodzaju rzeczy różni się w zależności od dziedziny. Typowe terminy określające wiek i płeć uczestnika to „atrybut uczestnika”, „zewnętrzna zmienna”, „zmienna niezależna od atrybutu” itp. Ostatecznie powstaje coś, co nie jest „prawdziwym eksperymentem” lub „prawdziwie kontrolowanym eksperymentem”, ponieważ rzecz, o której chcesz twierdzić - na przykład wiek - nie była tak naprawdę w stanie kontrolować, aby zmienić, więc najbardziej możesz oczekiwać bez znacznie bardziej zaawansowanych metod (takich jak wnioskowanie przyczynowe, dodatkowe warunki, dane podłużne itp.) jest twierdzenie, że istnieje korelacja.
Jest to również jeden z powodów, dla których eksperymenty w naukach społecznych i rozumienie trudnych do kontrolowania atrybutów ludzi są tak trudne w praktyce - ludzie różnią się na wiele sposobów, a kiedy nie można zmienić rzeczy, które chcesz aby się dowiedzieć, potrzebujesz bardziej złożonych technik eksperymentalnych i wnioskowania lub zupełnie innej strategii.
Jak mogłeś zmienić projekt, aby zgłosić roszczenie przyczynowe?
Wyobraź sobie hipotetyczny scenariusz: Grupa A i B składają się z uczestników w wieku 20 lat.
Grupa A gra jak zwykle w dyktaturę.
W przypadku grupy B zabierasz promień nauki o magicznym starzeniu się (a może przez to, że duch traktuje ich z przerażającym obliczem) ), który starannie dostosowałeś do starzenia się wszystkich uczestników Grupy B, aby mieli teraz 40 lat, ale w przeciwnym razie pozostawiają ich bez zmian, a następnie każą im grać w dyktatora, tak jak zrobiła to grupa A.
Dla dodatkowego rygoru można uzyskać grupę C 40-latków w wieku naturalnym, aby potwierdzić, że starzenie syntetyczne jest porównywalne do starzenia naturalnego, ale pozwala zachować prostotę i powiedzieć, że wiemy, że sztuczne starzenie się jest jak rzeczywistość oparta na „wcześniejszym” praca".
Teraz, jeśli Grupa B zatrzymuje więcej pieniędzy niż Grupa A, możesz twierdzić, że eksperyment wskazuje, że starzenie się powoduje, że ludzie zatrzymują więcej pieniędzy. Oczywiście nadal istnieje około tysiąca powodów, dla których twoje twierdzenie może okazać się błędne, ale twój eksperyment przynajmniej ma uzasadnioną interpretację przyczynową.
źródło
Nie. Istnieje jednokierunkowy logiczny związek między przyczynowością a korelacją.
Rozważ korelację właściwość, którą obliczasz na podstawie niektórych danych, np. Najczęstszą (liniową) korelację zdefiniowaną przez Pearson. Dla tej konkretnej definicji korelacji można tworzyć losowe punkty danych, które będą miały korelację równą zero lub jeden bez żadnego związku przyczynowego między nimi, po prostu poprzez pewne (a) symetrie. Dla każdej definicji korelacji możesz stworzyć receptę, która pokaże oba zachowania: wysokie wartości korelacji bez matematycznej relacji pomiędzy i niskie wartości korelacji, nawet jeśli istnieje ustalone wyrażenie.
Tak, relacja z „niepowiązanych, ale wysoce skorelowanych” jest słabsza niż „brak korelacji pomimo powiązania”. Ale jedynym wskaźnikiem (!), Który masz, jeśli korelacja jest obecna, jest to, że musisz szukać dokładniejszego wyjaśnienia.
źródło
Zasadniczo nie można przejść od korelacji do związku przyczynowego. Na przykład znane jest zjawisko nauk społecznych dotyczące statusu / klasy społecznej i skłonności do wydawania / oszczędzania. Przez wiele wiele lat sądzono, że ta wykazała związku przyczynowego. W ubiegłym roku bardziej intensywne badania wykazały, że tak nie było.
Klasyczna „korelacja nie jest przyczyną” - w tym przypadku kłopotliwym czynnikiem było to, że dorastanie w ubóstwie uczy ludzi korzystać z pieniędzy w inny sposób i wydawać, jeśli istnieje nadwyżka, ponieważ może nie być tam jutro, nawet jeśli uratuje się ją z różnych powodów .
W twoim przykładzie załóżmy, że wszyscy starsi ludzie przeżyli wojnę, czego nie zrobili młodsi. Może to wynikać z tego, że ludzie, którzy dorastali w chaosie społecznym, z realnym ryzykiem szkód i utraty życia, uczą się priorytetowego oszczędzania zasobów dla siebie i na wypadek potrzeby, bardziej niż ci, którzy dorastają w szczęśliwszych okolicznościach, w których państwo, pracodawcy lub zajmą się tym ubezpieczyciele zdrowotni, a przetrwanie nie jest problemem, który ukształtował ich perspektywy. Wtedy uzyskasz ten sam pozorny link - starsze osoby (w tym te bliższe ich pokoleniu) zachowują więcej, ale najwyraźniej byłyby powiązane z wiekiem. W rzeczywistości elementem sprawczym jest sytuacja społeczna, w której spędzono lata formacyjne, i jakie nawyki tego nauczały - a nie wiek sam w sobie .
źródło
Jest kilka powodów, dla których ten wniosek nie ma sensu.
Sugerowane ulepszenie projektu to następujące badanie typu crossover.
To samo ustawienie: losowi despotowie w każdym wieku, którzy rządzą ziemią. Projekt: Wybierz dopasowane pary młodych i starych dyktatorów. Daj im pulę pieniędzy, sprawdź wstrzymaną różnicę proporcji (stary - młody =p1 ). Kradnij pieniądze, aby kraj i władca mieli w zasadzie te same aktywa, co wcześniej. Zdejmij ich z odpowiednich tronów i zainstaluj na ziemi drugiego. Ponownie wykonaj doniczkę, sprawdź wstrzymaną różnicę proporcji (stary - młody =p2) ).
źródło
Przyczynowość i korelacja to różne kategorie rzeczy. Dlatego sama korelacja nie jest wystarczająca, aby wnioskować o przyczynowości.
Na przykład przyczynowość jest kierunkowa , a korelacja nie. Wnioskując o przyczynowości, musisz ustalić, co jest przyczyną, a co skutkiem.
Są inne rzeczy, które mogą zakłócać twoje wnioskowanie. Ukryte lub trzecie zmienne i wszystkie pytania dotyczące statystyki (wybór próby, wielkość próby itp.)
Ale zakładając, że statystyki są właściwie wykonane, korelacja może dostarczyć wskazówek na temat związku przyczynowego. Zazwyczaj, jeśli znajdziesz korelację, oznacza to, że gdzieś istnieje jakiś związek przyczynowy i powinieneś zacząć go szukać.
Możesz całkowicie rozpocząć od hipotezy opartej na twojej korelacji. Ale hipoteza nie jest przyczynowością, jest jedynie możliwością przyczynowości. Następnie musisz to przetestować. Jeśli twoja hipoteza opiera się wystarczającym próbom fałszerstwa, możesz coś zrobić.
Na przykład w twojej hipotezie związanej z wiekiem powoduje chciwość jedną z alternatywnych hipotez jest to, że nie chodzi o wiek, ale o długość bycia dyktatorem. Więc szukałbyś starych, ale ostatnio wzmocnionych dyktatorów jako grupy kontrolnej, i młodego-ale-dyktatora-od dzieciństwa jako drugiej i sprawdziłbyś tam wyniki.
źródło
Dziękujemy @AdamO za udostępnienie wielu dyskusji i sporów dotyczących tego postu. Staram się przedstawić fizyczny pogląd na przyczynowość, co może być nieznane przeciętnemu czytelnikowi statystyk.
Masz rację z punktu widzenia nauk fizycznych. W najprostszej formie, możliwość fizycznego, niezależnego od czasu poglądu na przyczynowość jest podstawą dedukcyjno-nomologicznego (DN) poglądu naukowego wyjaśnienia, rozważając zdarzenie, które należy wyjaśnić, jeśli można je uwzględnić na podstawie prawa naukowego. W widoku DN stan fizyczny uważa się za wyjaśniony, jeżeli stosując prawo (deterministyczne) można go wyprowadzić z danych warunków początkowych. (Takie początkowe warunki mogą obejmować moment pędu i odległość od siebie gwiazd podwójnych w dowolnym momencie.) Takie „wyjaśnienie determinizmem” jest czasami określane jako determinizm przyczynowy.
Aby uzyskać nieco bardziej kompletne informacje na ten temat, należy uwzględnić model indukcyjno-statystyczny Hempela, aby stworzyć naukowe wyjaśnienie , które to łącze oferuje pełniejszą dyskusję na temat związku przyczynowego.
Jeśli chodzi o omawiany problem, wiek może być związany z doświadczeniem, ale związek nie jest prosty, ponadto funkcja mózgu w różnym wieku jest inna (wyznaczenie czasu rozszerza się z wiekiem). Doświadczenie jako modyfikator zachowania jest dość zmienne, a to, że kohorta w pewnym sensie terytorialnym i czasowym może mieć podobne doświadczenia historyczne, nie oznacza, że jakiekolwiek zachowanie wynikające z tych doświadczeń można ekstrapolować na inne kohorty bez obawy o sprzeczność. W odniesieniu do kontrolowanej próby, powszechność doświadczeń jest niekontrolowaną zmienną, która wprowadza nieznaną i niezbadaną ilość fałszywej korelacji do jakiegokolwiek porównania binarnego, tak że żadna znaleziona różnica nie powinna być uważana za ujawniającą prawdopodobnie związek przyczynowy. Co więcej, prawdopodobna przyczyna, gdy zostanie znaleziona, stanowiłoby jedynie podejrzenie, a nie coś, co można stwierdzić z przekonaniem; w najlepszym wypadku jest to hipoteza robocza, a nie najlepszy wniosek. Przekonania dotyczące związku przyczynowego należy wyciągać wyłącznie z materiału dowodowego, który jest wystarczająco obejmujący, aby przekonania te były bez uzasadnionych wątpliwości. Nie dotyczy to powyższego pytania, w przypadku którego nie ma wystarczających informacji, aby domagać się jakiegokolwiek związku przyczynowego poza przypadkowym kontekstem z grupy kohort. Można rzeczywiście sformułować tak wiele hipotez, na przykład, że ewolucja hojności wraz z wiekiem jest modyfikowana przez doświadczenia epoki kulturowej / historycznej, że nie można wyciągnąć jednoznacznych wniosków z przedstawionego problemu. Przekonania dotyczące związku przyczynowego należy wyciągać wyłącznie z materiału dowodowego, który jest wystarczająco obejmujący, aby przekonania te były bez uzasadnionych wątpliwości. Nie dotyczy to powyższego pytania, w przypadku którego nie ma wystarczających informacji, aby domagać się jakiegokolwiek związku przyczynowego poza przypadkowym kontekstem z grupy kohort. Można rzeczywiście sformułować tak wiele hipotez, na przykład, że ewolucja hojności wraz z wiekiem jest modyfikowana przez doświadczenia epoki kulturowej / historycznej, że nie można wyciągnąć jednoznacznych wniosków z przedstawionego problemu. Przekonania dotyczące związku przyczynowego należy wyciągać wyłącznie z materiału dowodowego, który jest wystarczająco obejmujący, aby przekonania te były bez uzasadnionych wątpliwości. Nie dotyczy to powyższego pytania, w przypadku którego nie ma wystarczających informacji, aby domagać się jakiegokolwiek związku przyczynowego poza przypadkowym kontekstem z grupy kohort. Można rzeczywiście sformułować tak wiele hipotez, na przykład, że ewolucja hojności wraz z wiekiem jest modyfikowana przez doświadczenia epoki kulturowej / historycznej, że nie można wyciągnąć jednoznacznych wniosków z przedstawionego problemu.
źródło