Kiedy korelacja może być użyteczna bez związku przyczynowego?

27

Zwierzę domowe mówi wielu statystyk: „Korelacja nie oznacza związku przyczynowego”. Jest to z pewnością prawda, ale jedną z rzeczy, które wydają się tutaj sugerowane, jest to, że korelacja ma niewielką lub żadną wartość. Czy to prawda? Czy bezużyteczne jest posiadanie wiedzy, że dwie zmienne są skorelowane?

Nie mogę sobie tego wyobrazić. Nie jestem strasznie zaznajomiony z analizą predykcyjną, ale wydaje się, że jeśli Xjest predyktorem Y, przydałby się w przewidywaniu przyszłych wartości Yopartych na X, niezależnie od przyczynowości.

Czy błędnie widzę wartość w korelacji? A jeśli nie, w jakich sytuacjach statystyki lub badacze danych mogliby zastosować korelację bez związku przyczynowego?

Indigencja
źródło
5
Moim zdaniem wyrażenie „związek przyczynowy nie implikuje korelacji” jest często nadużywane, aby sugerować, że statystykom nie zawsze należy ufać (to prawda, ale nie zawsze z powodu braku związku przyczynowego). Tak się denerwuję, gdy widzę, jak ludzie upuszczają to zdanie w związku z tym, dlaczego analiza predykcyjna jest błędna. Na przykład facebook.com/notes/mike-develin/debunking-princeton/… jest doskonałym przykładem zarówno strasznej analizy ORAZ strasznego obalenia okropnej analizy.
Cliff AB
10
Załóżmy na przykład, że okaże się, że mieszkanie w pewnym mieście jest skorelowane z przedwczesną śmiercią. Nie można dojść do wniosku, że mieszkanie w tym mieście powoduje przedwczesną śmierć, ani że zmuszenie ludzi do wyprowadzki z tego miasta pomoże im żyć dłużej. (Może z jakiegoś powodu miasto jest atrakcyjne dla chorych ludzi.) Ale jeśli jesteś aktuariuszem, miałbyś całkowitą rację by chcieć pobierać wyższe składki na ubezpieczenie na życie od członków tego miasta - wiedza o tej korelacji może być bardzo cenna dla ty.
Nate Eldredge,
2
Więcej osób umiera na południu Anglii, @NateEldredge. To dlatego, że ludzie tam przechodzą na emeryturę.
TRiG
1
Prawdopodobnie brak korelacji ma większe znaczenie.
Raphael
Obowiązkowe odniesienie xkcd: xkcd.com/552
vsz

Odpowiedzi:

32

Korelacja (lub jakakolwiek inna miara asocjacji) jest przydatna do przewidywania niezależnie od związku przyczynowego. Załóżmy, że mierzysz wyraźne, stabilne powiązanie między dwiema zmiennymi. Oznacza to, że znajomość poziomu jednej zmiennej zapewnia również pewne informacje na temat innej zmiennej zainteresowania, których można użyć, aby pomóc przewidzieć jedną zmienną jako funkcję drugiej i, co najważniejsze, podjąć pewne działania w oparciu o tę prognozę . Podejmowanie działań polega na zmianie jednej lub większej liczby zmiennych, na przykład przy wydawaniu automatycznych zaleceń lub przy interwencji medycznej. Oczywiście, możesz lepiej przewidywać i działać skuteczniej, jeśli masz lepszy wgląd w bezpośrednie lub pośrednie relacje między dwiema zmiennymi. Wgląd ten może obejmować inne zmienne, w tym zmienne przestrzenne i czasowe.

Zuchwała równowaga
źródło
4
Korelacje nie zawsze są przydatne do przewidywania. W przypadkach odwrotnego związku przyczynowego istnieją ważne aspekty czasowe, nad którymi nie zawsze można kontrolować. Cały czas spotykamy się z chorobą Alzheimera. Ciągle uderzamy głową o ścianę, próbując dostrzec: czy biomarkery, które znajdujemy w AD, wpływają na mózgi powodujące chorobę lub spowodowane chorobą?
AdamO,
1
@AdamO Myślę, że moja odpowiedź obejmuje tę podstawę w ostatnim lub dwóch zdaniach, więc nie zgadzam się z tobą.
Brash Equilibrium,
1
Problem przyczynowości faktycznie powstaje tylko wtedy, gdy próbujesz zinterpretować swój model predykcyjny. (Oczywiście to właśnie często interesuje nas nauka). Kiedy widzimy, że biomarker Ajest bardzo dobrym predyktorem, bardzo kuszące jest twierdzenie, że jest to również przyczyną choroby - i jak wspomniano w komentarzach, bardzo łatwo jest dojść do błędnych wniosków. Jeśli chcemy jedynie przewidywać, np. Powiedzieć, czy pacjent ma chorobę, czy nie, nie ma problemów z korelacjami.
cel
1
To nieprawda i oto tylko jeden przykład dlaczego. Jeśli działanie w oparciu o twoje przewidywania obejmuje zmianę zmiennej i oczekiwanie, że cel również się zmieni, ale w rzeczywistości nie ma bezpośredniego związku lub związek przyczynowy idzie w drugą stronę, to podejmiesz niewłaściwe działanie. I zanim powiesz „ale w tym przykładzie interpretujesz model”, mówię, „w jakim scenariuszu NIE wyciągnąłbyś wniosków nawet z modelu przeznaczonego do przewidywania?” Odpowiedź: kiedy nie pokładasz zbyt dużego zaufania w związki przyczynowe, które sugeruje twój model.
Brash Equilibrium
1
@BrashEquilibrium: Istnieje wiele sposobów działania na podstawie prognozy, które nie wymagają zmiany zmiennych używanych w celu uzyskania prognozy w jakikolwiek sposób. Chcesz wiedzieć, czy Twój sklep powinien zaopatrywać się w wełniane mitenki? Wiedza o tym, ile lodów sprzedajesz ostatnio (przy hipotetycznym braku bardziej bezpośrednich źródeł danych) może być dobrym predyktorem.
Ilmari Karonen
17

Jest już wiele dobrych punktów. Pozwól mi rozpakować twoje twierdzenie, że „wydaje się, że jeśli Xjest predyktorem Y, przydałby się nieco w przewidywaniu przyszłych wartości Yopartych na X, niezależnie od przyczynowości”. Masz rację: jeśli wszystko, czego chcesz, to móc przewidzieć nieznaną Ywartość na podstawie znanej Xwartości i znanego, stabilnego związku, status przyczynowy tego związku jest nieistotny. Weź pod uwagę, że:

  • Możesz przewidzieć efekt z przyczyny. Jest to intuicyjne i niekontrowersyjne.
  • Możesz również przewidzieć przyczynę na podstawie wiedzy o działaniu. Niektórzy, ale bardzo nieliczni ludzie, którzy chorują na raka płuc, nigdy nie palą. W rezultacie, jeśli wiesz, że ktoś ma raka płuc, możesz z dużą pewnością przewidzieć, że jest / był palaczem, pomimo faktu, że palenie jest przyczynowe, a rak jest skutkiem. Jeśli trawa na podwórku jest mokra, a zraszacz nie działał, możesz przewidzieć, że padał deszcz, nawet jeśli przyczyną jest deszcz, a mokra trawa tylko skutkiem. Itp.
  • Możesz również przewidzieć nieznany efekt na podstawie znanego efektu tej samej przyczyny. Na przykład, jeśli Billy i Bobby są identycznymi bliźniakami i nigdy nie spotkałem Billy'ego, ale wiem, że Bobby ma 5 stóp 10 cali (178 cm), mogę przewidzieć, że Billy ma również 178 cm pewności, mimo że ani wzrost Billy'ego nie powoduje wzrostu Bobby'ego, ani wzrost Bobby'ego nie powoduje wzrostu Billy'ego.
gung - Przywróć Monikę
źródło
7
Aby nadać nazwy kategoriom: Twoje trzy rodzaje przewidywania nazywane są (w kolejności) odliczeniem , uprowadzeniem i indukcją .
Neil G
12

Nie kupują znaczenia korelacji. Po prostu tendencja do interpretowania korelacji jako przyczynowości.

Weź przykład karmienia piersią. Matki prawie zawsze interpretują ustalenia (z badań obserwacyjnych) dotyczące karmienia piersią jako sugestię, czy rzeczywiście powinny karmić piersią. Prawdą jest, że przeciętnie dzieci karmione piersią są zdrowszymi dorosłymi w celu uporządkowania wieku, nawet po kontrolowaniu podłużnego wieku matek i ojców, statusu społeczno-ekonomicznego itp. Nie oznacza to, że różnica dotyczy tylko karmienia piersią, chociaż może częściowo odgrywają rolę we wczesnym rozwoju regulacji apetytu. Związek jest bardzo złożony i można łatwo spekulować na cały szereg czynników pośredniczących, które mogą leżeć u podstaw zaobserwowanych różnic.

Wiele badań dotyczy stowarzyszeń, które gwarantują głębsze zrozumienie tego, co się dzieje. Korelacja nie jest bezużyteczna, jest tylko kilka kroków poniżej związku przyczynowego i należy pamiętać o tym, jak zgłaszać ustalenia, aby zapobiec błędnej interpretacji ze strony nieuczciwych.

AdamO
źródło
9

Masz rację, że korelacja jest przydatna. Powodem, dla którego modele przyczynowe są lepsze od modeli asocjacyjnych, jest to, że - jak mówi Pearl - są wyroczniami dla interwencji. Innymi słowy, pozwalają ci rozumować hipotetycznie. Model przyczynowy odpowiada na pytanie „gdybym sprawił, że X się stanie, co stałoby się z Y?”

Ale nie zawsze trzeba rozumować hipotetycznie. Jeśli model jest tylko będzie używany do odpowiedzi na pytania typu „czy mogę obserwować X, co wiem o Y?”, Wówczas skojarzeniowy model jest wszystko , czego potrzebujesz.

Neil G.
źródło
3
Oracles For Interwencje to dobra nazwa dla zespołu.
Malvolio,
@Malvolio: lol, jest to niezaprzeczalnie zwięzły sposób na opisanie modeli przyczynowych. Naprawdę podoba mi się to zdanie.
Neil G,
4

Masz rację, że korelacja jest przydatna do przewidywania. Jest także przydatny do lepszego zrozumienia badanego systemu.

Jednym z przypadków, w których wiedza na temat mechanizmu przyczynowego jest konieczna, jest manipulowanie rozkładem docelowym (np. Niektóre zmienne zostały „zmuszone” do przyjęcia określonych wartości). Model oparty tylko na korelacjach będzie działał słabo, podczas gdy model wykorzystujący informacje przyczynowe powinien działać znacznie lepiej.

Jerzy
źródło
2

Korelacja jest przydatnym narzędziem, jeśli masz podstawowy model wyjaśniający przyczynowość.

Na przykład, jeśli wiesz, że zastosowanie siły do ​​obiektu wpływa na jego ruch, możesz zmierzyć korelację między siłą a prędkością oraz siłą i przyspieszeniem. Silniejsza korelacja (wraz z przyspieszeniem) sama w sobie da się wyjaśnić.

W badaniach obserwacyjnych korelacja może ujawnić pewne powszechne wzorce (jak stwierdzono karmienie piersią i późniejsze zdrowie), które mogą być podstawą do dalszych badań naukowych za pomocą odpowiedniego projektu eksperymentalnego, który może potwierdzić lub odrzucić związek przyczynowy (np. Być może zamiast karmienia piersią przyczyną może być konsekwencje dla pewnych ram kulturowych).

Tak więc korelacja może być użyteczna, ale rzadko może być rozstrzygająca.

Alexander Radev
źródło
2

Jak już wspomniałeś, sama korelacja ma wiele pożyteczności, głównie przewidywanie.

Powodem, dla którego ta fraza jest używana (lub niewłaściwie używana, patrz mój komentarz w górnej części postu) jest tak często, że związek przyczynowy jest często o wiele bardziej interesującym pytaniem. To znaczy, jeśli spędziliśmy wiele wysiłku, aby zbadać zależność między i , to jest bardzo prawdopodobne, bo z powrotem w prawdziwym świecie, jesteśmy ciekawi, czy możemy skorzystać z do wpływania .B A BABAB

Na przykład wszystkie te badania pokazujące, że intensywne spożywanie kawy u osób starszych jest skorelowane z zdrowszymi układami sercowo-naczyniowymi, są moim zdaniem niewątpliwie motywowane przez osoby, które chcą uzasadnić swoje ciężkie nawyki związane z kawą. Jednak powiedzenie, że picie kawy jest skorelowane tylko ze zdrowszymi sercami, a nie z przyczynami, nie odpowiada na nasze prawdziwe pytanie: czy będziemy zdrowsi, jeśli pijemy więcej kawy, czy też ograniczamy ją? Znalezienie bardzo interesujących wyników (kawa jest powiązana ze zdrowszymi sercami!) Może być bardzo frustrujące, ale nie jest w stanie wykorzystać tych informacji do podjęcia decyzji (wciąż nie wiem, czy należy pić kawę, aby być zdrowszym), więc prawie zawsze jest pokusa interpretowania korelacji jako przyczynowości.

Chyba że wszystko, na czym ci zależy, to hazard (tzn. Chcesz przewidzieć, ale nie wpływać).

Cliff AB
źródło
2

Korelacja ma wartość, ale należy spojrzeć na więcej dowodów, aby stwierdzić związek przyczynowy.

Wiele lat temu przeprowadzono badanie, w wyniku którego „kawa powoduje raka”. Gdy tylko to usłyszałem w wiadomościach, powiedziałem mojej żonie „fałszywą korelację”. Okazało się, że miałem rację. Populacja kawy 2-3 szklanki dziennie miała wyższy wskaźnik palenia niż osoby pijące bez kawy. Gdy kolektory danych to rozgryzły, wycofały swoje wyniki.

Kolejne interesujące badanie sprzed boomu mieszkaniowego wykazało rasizm, jeśli chodzi o przetwarzanie kredytów hipotecznych. Twierdzono, że czarni wnioskodawcy byli odrzucani częściej niż biali. Ale inne badanie dotyczyło współczynników niewykonania zobowiązania. Czarni właściciele domów domyślnie w tym samym tempie co biali. Gdyby czarne aplikacje były utrzymywane na wyższym poziomie, ich wskaźnik domyślny byłby znacznie niższy. Uwaga: tę anegdotę podzielił autor Thomas Sowell w swojej książce The Housing Boom and Bust

Eksploracja danych może z łatwością wytworzyć dwa zestawy danych, które wykazują wysoką korelację, ale dla zdarzeń, które nie mogą być powiązane. Na koniec najlepiej spojrzeć na badania, które są wysyłane bardzo krytycznie. Znalezienie fałszywych korelacji nie zawsze jest łatwe, jest to talent nabyty.

JTP - Przeproś Monikę
źródło
Z przyjemnością przeczytałem tę odpowiedź. Wydaje się jednak, że należy odpowiedzieć na odwrotność pytania: „Czy bezużyteczne jest posiadanie wiedzy, że dwie zmienne są ze sobą skorelowane? ... W jakich sytuacjach statystyczny lub badacz danych może zastosować korelację bez związku przyczynowego?”
whuber
1
„Czarni właściciele domów domyślnie domyślnie stawali się tak samo jak biali. Gdyby czarne aplikacje były utrzymywane na wyższym poziomie, ich domyślny wskaźnik byłby znacznie niższy”. wyciąga wnioski. To właśnie ten problem; czarni wnioskodawcy statystycznie będą się różnić od białych kandydatów, a jeśli więcej czarnych znajdzie się w grupie, która jest bardziej skłonna zaakceptować niewypłacalność hipotek, czarni wnioskodawcy o tym samym współczynniku niewykonania zobowiązania wskazywaliby na dyskryminację. Oddzielenie mylących efektów jest trudne.
prosfilaes
Jak powiedziałem, anegdota pochodzi od znanego czarnego uczonego. Zajęło to znacznie więcej niż akapit do omówienia w książce, o której wspominałem.
JTP - przeproś Monikę
1

Korelacja jest zjawiskiem obserwowalnym. Możesz to zmierzyć. Możesz działać na podstawie tych pomiarów. Sam w sobie może być przydatny.

Jeśli jednak wszystko, co masz, to korelacja, nie masz żadnej gwarancji, że dokonana zmiana rzeczywiście przyniesie skutek (zobacz słynne wykresy łączące wzrost liczby iPhone'ów z niewolnictwem za granicą). To po prostu pokazuje, że istnieje tam korelacja, a jeśli poprawisz środowisko (działając), ta korelacja może nadal istnieć.

Jest to jednak bardzo subtelne podejście. W wielu scenariuszach chcemy mieć mniej subtelne narzędzie: przyczynowość. Przyczynowość jest korelacją połączoną z twierdzeniem, że jeśli poprawisz swoje środowisko, działając w taki czy inny sposób, należy oczekiwać, że korelacja nadal będzie istnieć. Umożliwia to planowanie długoterminowe, takie jak powiązanie 20 lub 50 zdarzeń przyczynowych z rzędu w celu zidentyfikowania przydatnego wyniku. Robiąc to z 20 lub 50 korelacjami często pozostawia bardzo niewyraźny i mętny wynik.

Jako przykład tego, jak były one przydatne w przeszłości, rozważ zachodnią naukę kontra tradycyjną medycynę chińską (TCM). Zachodnia nauka koncentruje się przede wszystkim na: „Opracuj teorię, wyizoluj test, który może wykazać teorię, przeprowadź test i udokumentuj wyniki”. Zaczyna się od „opracowania teorii”, która jest silnie związana z przyczynowością. TCM obrócił go, zaczynając od „opracuj test, który może przynieść przydatne wyniki, uruchom test, zidentyfikuj korelacje w odpowiedzi”. Nacisk kładziony jest bardziej na korelacje.

Obecnie ludzie z Zachodu wolą myśleć prawie wyłącznie w kategoriach przyczynowych, więc trudniej jest szpiegować wartość studiowania korelacji. Uważamy jednak, że czai się w każdym zakątku naszego życia. I nigdy nie zapominaj, że nawet w zachodniej nauce korelacje są ważnym narzędziem do identyfikacji, które teorie warto zbadać!

Cort Ammon - Przywróć Monikę
źródło