Zwierzę domowe mówi wielu statystyk: „Korelacja nie oznacza związku przyczynowego”. Jest to z pewnością prawda, ale jedną z rzeczy, które wydają się tutaj sugerowane, jest to, że korelacja ma niewielką lub żadną wartość. Czy to prawda? Czy bezużyteczne jest posiadanie wiedzy, że dwie zmienne są skorelowane?
Nie mogę sobie tego wyobrazić. Nie jestem strasznie zaznajomiony z analizą predykcyjną, ale wydaje się, że jeśli X
jest predyktorem Y
, przydałby się w przewidywaniu przyszłych wartości Y
opartych na X
, niezależnie od przyczynowości.
Czy błędnie widzę wartość w korelacji? A jeśli nie, w jakich sytuacjach statystyki lub badacze danych mogliby zastosować korelację bez związku przyczynowego?
correlation
predictive-models
causality
Indigencja
źródło
źródło
Odpowiedzi:
Korelacja (lub jakakolwiek inna miara asocjacji) jest przydatna do przewidywania niezależnie od związku przyczynowego. Załóżmy, że mierzysz wyraźne, stabilne powiązanie między dwiema zmiennymi. Oznacza to, że znajomość poziomu jednej zmiennej zapewnia również pewne informacje na temat innej zmiennej zainteresowania, których można użyć, aby pomóc przewidzieć jedną zmienną jako funkcję drugiej i, co najważniejsze, podjąć pewne działania w oparciu o tę prognozę . Podejmowanie działań polega na zmianie jednej lub większej liczby zmiennych, na przykład przy wydawaniu automatycznych zaleceń lub przy interwencji medycznej. Oczywiście, możesz lepiej przewidywać i działać skuteczniej, jeśli masz lepszy wgląd w bezpośrednie lub pośrednie relacje między dwiema zmiennymi. Wgląd ten może obejmować inne zmienne, w tym zmienne przestrzenne i czasowe.
źródło
A
jest bardzo dobrym predyktorem, bardzo kuszące jest twierdzenie, że jest to również przyczyną choroby - i jak wspomniano w komentarzach, bardzo łatwo jest dojść do błędnych wniosków. Jeśli chcemy jedynie przewidywać, np. Powiedzieć, czy pacjent ma chorobę, czy nie, nie ma problemów z korelacjami.Jest już wiele dobrych punktów. Pozwól mi rozpakować twoje twierdzenie, że „wydaje się, że jeśli
X
jest predyktoremY
, przydałby się nieco w przewidywaniu przyszłych wartościY
opartych naX
, niezależnie od przyczynowości”. Masz rację: jeśli wszystko, czego chcesz, to móc przewidzieć nieznanąY
wartość na podstawie znanejX
wartości i znanego, stabilnego związku, status przyczynowy tego związku jest nieistotny. Weź pod uwagę, że:źródło
Nie kupują znaczenia korelacji. Po prostu tendencja do interpretowania korelacji jako przyczynowości.
Weź przykład karmienia piersią. Matki prawie zawsze interpretują ustalenia (z badań obserwacyjnych) dotyczące karmienia piersią jako sugestię, czy rzeczywiście powinny karmić piersią. Prawdą jest, że przeciętnie dzieci karmione piersią są zdrowszymi dorosłymi w celu uporządkowania wieku, nawet po kontrolowaniu podłużnego wieku matek i ojców, statusu społeczno-ekonomicznego itp. Nie oznacza to, że różnica dotyczy tylko karmienia piersią, chociaż może częściowo odgrywają rolę we wczesnym rozwoju regulacji apetytu. Związek jest bardzo złożony i można łatwo spekulować na cały szereg czynników pośredniczących, które mogą leżeć u podstaw zaobserwowanych różnic.
Wiele badań dotyczy stowarzyszeń, które gwarantują głębsze zrozumienie tego, co się dzieje. Korelacja nie jest bezużyteczna, jest tylko kilka kroków poniżej związku przyczynowego i należy pamiętać o tym, jak zgłaszać ustalenia, aby zapobiec błędnej interpretacji ze strony nieuczciwych.
źródło
Masz rację, że korelacja jest przydatna. Powodem, dla którego modele przyczynowe są lepsze od modeli asocjacyjnych, jest to, że - jak mówi Pearl - są wyroczniami dla interwencji. Innymi słowy, pozwalają ci rozumować hipotetycznie. Model przyczynowy odpowiada na pytanie „gdybym sprawił, że X się stanie, co stałoby się z Y?”
Ale nie zawsze trzeba rozumować hipotetycznie. Jeśli model jest tylko będzie używany do odpowiedzi na pytania typu „czy mogę obserwować X, co wiem o Y?”, Wówczas skojarzeniowy model jest wszystko , czego potrzebujesz.
źródło
Masz rację, że korelacja jest przydatna do przewidywania. Jest także przydatny do lepszego zrozumienia badanego systemu.
Jednym z przypadków, w których wiedza na temat mechanizmu przyczynowego jest konieczna, jest manipulowanie rozkładem docelowym (np. Niektóre zmienne zostały „zmuszone” do przyjęcia określonych wartości). Model oparty tylko na korelacjach będzie działał słabo, podczas gdy model wykorzystujący informacje przyczynowe powinien działać znacznie lepiej.
źródło
Korelacja jest przydatnym narzędziem, jeśli masz podstawowy model wyjaśniający przyczynowość.
Na przykład, jeśli wiesz, że zastosowanie siły do obiektu wpływa na jego ruch, możesz zmierzyć korelację między siłą a prędkością oraz siłą i przyspieszeniem. Silniejsza korelacja (wraz z przyspieszeniem) sama w sobie da się wyjaśnić.
W badaniach obserwacyjnych korelacja może ujawnić pewne powszechne wzorce (jak stwierdzono karmienie piersią i późniejsze zdrowie), które mogą być podstawą do dalszych badań naukowych za pomocą odpowiedniego projektu eksperymentalnego, który może potwierdzić lub odrzucić związek przyczynowy (np. Być może zamiast karmienia piersią przyczyną może być konsekwencje dla pewnych ram kulturowych).
Tak więc korelacja może być użyteczna, ale rzadko może być rozstrzygająca.
źródło
Jak już wspomniałeś, sama korelacja ma wiele pożyteczności, głównie przewidywanie.
Powodem, dla którego ta fraza jest używana (lub niewłaściwie używana, patrz mój komentarz w górnej części postu) jest tak często, że związek przyczynowy jest często o wiele bardziej interesującym pytaniem. To znaczy, jeśli spędziliśmy wiele wysiłku, aby zbadać zależność między i , to jest bardzo prawdopodobne, bo z powrotem w prawdziwym świecie, jesteśmy ciekawi, czy możemy skorzystać z do wpływania .B A BA B A B
Na przykład wszystkie te badania pokazujące, że intensywne spożywanie kawy u osób starszych jest skorelowane z zdrowszymi układami sercowo-naczyniowymi, są moim zdaniem niewątpliwie motywowane przez osoby, które chcą uzasadnić swoje ciężkie nawyki związane z kawą. Jednak powiedzenie, że picie kawy jest skorelowane tylko ze zdrowszymi sercami, a nie z przyczynami, nie odpowiada na nasze prawdziwe pytanie: czy będziemy zdrowsi, jeśli pijemy więcej kawy, czy też ograniczamy ją? Znalezienie bardzo interesujących wyników (kawa jest powiązana ze zdrowszymi sercami!) Może być bardzo frustrujące, ale nie jest w stanie wykorzystać tych informacji do podjęcia decyzji (wciąż nie wiem, czy należy pić kawę, aby być zdrowszym), więc prawie zawsze jest pokusa interpretowania korelacji jako przyczynowości.
Chyba że wszystko, na czym ci zależy, to hazard (tzn. Chcesz przewidzieć, ale nie wpływać).
źródło
Korelacja ma wartość, ale należy spojrzeć na więcej dowodów, aby stwierdzić związek przyczynowy.
Wiele lat temu przeprowadzono badanie, w wyniku którego „kawa powoduje raka”. Gdy tylko to usłyszałem w wiadomościach, powiedziałem mojej żonie „fałszywą korelację”. Okazało się, że miałem rację. Populacja kawy 2-3 szklanki dziennie miała wyższy wskaźnik palenia niż osoby pijące bez kawy. Gdy kolektory danych to rozgryzły, wycofały swoje wyniki.
Kolejne interesujące badanie sprzed boomu mieszkaniowego wykazało rasizm, jeśli chodzi o przetwarzanie kredytów hipotecznych. Twierdzono, że czarni wnioskodawcy byli odrzucani częściej niż biali. Ale inne badanie dotyczyło współczynników niewykonania zobowiązania. Czarni właściciele domów domyślnie w tym samym tempie co biali. Gdyby czarne aplikacje były utrzymywane na wyższym poziomie, ich wskaźnik domyślny byłby znacznie niższy. Uwaga: tę anegdotę podzielił autor Thomas Sowell w swojej książce The Housing Boom and Bust
Eksploracja danych może z łatwością wytworzyć dwa zestawy danych, które wykazują wysoką korelację, ale dla zdarzeń, które nie mogą być powiązane. Na koniec najlepiej spojrzeć na badania, które są wysyłane bardzo krytycznie. Znalezienie fałszywych korelacji nie zawsze jest łatwe, jest to talent nabyty.
źródło
Korelacja jest zjawiskiem obserwowalnym. Możesz to zmierzyć. Możesz działać na podstawie tych pomiarów. Sam w sobie może być przydatny.
Jeśli jednak wszystko, co masz, to korelacja, nie masz żadnej gwarancji, że dokonana zmiana rzeczywiście przyniesie skutek (zobacz słynne wykresy łączące wzrost liczby iPhone'ów z niewolnictwem za granicą). To po prostu pokazuje, że istnieje tam korelacja, a jeśli poprawisz środowisko (działając), ta korelacja może nadal istnieć.
Jest to jednak bardzo subtelne podejście. W wielu scenariuszach chcemy mieć mniej subtelne narzędzie: przyczynowość. Przyczynowość jest korelacją połączoną z twierdzeniem, że jeśli poprawisz swoje środowisko, działając w taki czy inny sposób, należy oczekiwać, że korelacja nadal będzie istnieć. Umożliwia to planowanie długoterminowe, takie jak powiązanie 20 lub 50 zdarzeń przyczynowych z rzędu w celu zidentyfikowania przydatnego wyniku. Robiąc to z 20 lub 50 korelacjami często pozostawia bardzo niewyraźny i mętny wynik.
Jako przykład tego, jak były one przydatne w przeszłości, rozważ zachodnią naukę kontra tradycyjną medycynę chińską (TCM). Zachodnia nauka koncentruje się przede wszystkim na: „Opracuj teorię, wyizoluj test, który może wykazać teorię, przeprowadź test i udokumentuj wyniki”. Zaczyna się od „opracowania teorii”, która jest silnie związana z przyczynowością. TCM obrócił go, zaczynając od „opracuj test, który może przynieść przydatne wyniki, uruchom test, zidentyfikuj korelacje w odpowiedzi”. Nacisk kładziony jest bardziej na korelacje.
Obecnie ludzie z Zachodu wolą myśleć prawie wyłącznie w kategoriach przyczynowych, więc trudniej jest szpiegować wartość studiowania korelacji. Uważamy jednak, że czai się w każdym zakątku naszego życia. I nigdy nie zapominaj, że nawet w zachodniej nauce korelacje są ważnym narzędziem do identyfikacji, które teorie warto zbadać!
źródło