Dlaczego zerowa korelacja niekoniecznie oznacza niezależność

41

Jeśli dwie zmienne mają korelację 0, to dlaczego niekoniecznie są one niezależne? Czy zmienne skorelowane z zerami są niezależne w szczególnych okolicznościach? Jeśli to możliwe, szukam intuicyjnego wyjaśnienia, a nie wysoce technicznego.

Zwycięzca
źródło
10
Korelacja jest miarą zależności liniowej (asocjacji). dwie zmienne losowe mogą być nieskorelowane, ale nieliniowo zależne.
Mark L. Stone,
Intuicyjne wyjaśnienie -> math.stackexchange.com/questions/444408/…
Siddhesh
6
Zerowa korelacja oznacza niezależność, jeśli zmienne są wielowymiarowe normalne. To nie jest taka sama jak każda zmienna jest normalne - patrz tutaj dla niektórych rozrzutu o zerowej skorelowane ale zależnych zmiennych normalnych (każda zmienna jest indywidualnie normalny)
Glen_b
1
Korelacja (nieuwzględniona) może obejmować korelację rang itp., W przypadku której problemem jest zależność monotoniczna i tak dalej.
Nick Cox
1
Jeśli chodzi o perspektywę, poleciłbym, abyś widział w Wikipedii „korelację odległości” jako miarę niezależności.
ttnphns

Odpowiedzi:

41

Korelacja mierzy liniowe powiązanie między dwiema danymi zmiennymi i nie ma obowiązku wykrywania żadnej innej formy powiązania.

Tak więc te dwie zmienne mogą być powiązane na kilka innych nieliniowych sposobów, a korelacja nie odróżnia się od niezależnego przypadku.

XP(X=x)=1/3x=1,0,1Y=X2

Marcelo Ventura
źródło
1
Szukałem dowodów na to, że losowe wariancje są nieskorelowane, ale zależne, jednak żadna z bezpośrednich odpowiedzi na moje pytanie nie ujawniła intuicyjnych faktów. twoja odpowiedź, z drugiej strony, daje mi bardzo dobry punkt widzenia, bardzo dziękuję!
stucash
1
@stucash moja przyjemność! To był stary licznik przykład nauczyłem
Marcelo Ventura
23

Uogólniony jest brak rygoru w używaniu słowa „korelacja” z tego prostego powodu, że może on mieć bardzo różne założenia i znaczenia. Najprostszym, najbardziej luźnym i najczęstszym zastosowaniem jest pewne niejasne powiązanie, związek lub brak niezależności między statyczną parą losowych zmiennych.

W tym przypadku domyślną miarą, o której mowa, jest zwykle korelacja Pearsona , która jest znormalizowaną miarą parowo- liniowego powiązania między dwiema zmiennymi o rozkładzie ciągłym. Jednym z najczęstszych nadużyć Pearsona jest zgłaszanie go w procentach. To zdecydowanie nie jest procent. Pearsona korelacji R mieści się w zakresie między -1,0 a +1,0 gdzie 0 oznacza brak liniowy asocjacji. Inne nie tak powszechnie rozpoznawane problemy z użyciem korelacji Pearsona jako domyślnej to fakt, że w rzeczywistości jest to dość rygorystyczna, niesolidna miara liniowości wymagająca zmiennych wejściowych skalowanych w odstępach czasu (patrz doskonały artykuł Paula Embrechtsa naKorelacja i zależność w zarządzaniu ryzykiem: właściwości i pułapki tutaj: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).

Embrechts zauważa, że ​​istnieje wiele błędnych założeń dotyczących zależności, które zaczynają się od założeń o podstawowej strukturze i geometrycznym kształcie tych zależności:

Błędy te wynikają z naiwnego założenia, że ​​właściwości zależności świata eliptycznego zachowują się również w świecie nieeliptycznym

Embrechts wskazuje na kopuły jako znacznie szerszą klasę wskaźników zależności wykorzystywanych w finansach i zarządzaniu ryzykiem, z których korelacja Pearsona jest tylko jednym rodzajem.

Departament Statystyki Kolumbii spędził rok akademicki 2013-2014, koncentrując się na rozwijaniu głębszego zrozumienia struktur zależności: np. Liniowych, nieliniowych, monotonicznych, rangowych, parametrycznych, nieparametrycznych, potencjalnie bardzo złożonych i posiadających duże różnice w skalowaniu. Rok zakończył się 3-dniowymi warsztatami i konferencją, które zgromadziły większość najlepszych autorów w tej dziedzinie ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 ).

Wśród nich znaleźli się Bracia Reshef, teraz znani z publikacji naukowej z 2011 r. Wykrywanie nowych skojarzeń w dużych zbiorach danych http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf, która był szeroko krytykowany (patrz AndrewGelman.com dla dobrego przeglądu, opublikowany równocześnie z wydarzeniem Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Reshefs odniósł się do wszystkich tych uwag w swojej prezentacji (dostępnej na stronie konferencji w Kolumbii), a także o znacznie bardziej wydajnym algorytmie MIC.

Wielu innych wiodących statystyk przedstawionych na tym wydarzeniu, w tym Gabor Szekely, teraz na NSF w DC. Szekely rozwinął swoje korelacje odległości i częściowych odległości . Deep Mukhopadhay, Temple U, prezentując swój zunifikowany algorytm statystyczny - ramy dla zunifikowanych algorytmów nauki danych - w oparciu o prace wykonane z Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . I wiele innych. Dla mnie jednym z ciekawszych tematów było szerokie wykorzystanie i wykorzystanie Reproducing Kernel Hilbert Space (RKHS) i chi-kwadrat. Jeśli na tej konferencji istniało modalne podejście do struktur zależności, to był to RKHS.

Typowe podręczniki do statystyki wprowadzającej są zręczne w podejściu do zależności, zwykle opierając się na prezentacjach tego samego zestawu wizualizacji relacji kołowych lub parabolicznych. Bardziej wyrafinowane teksty zagłębią się w Kwartet Anscombe , wizualizację czterech różnych zestawów danych posiadających podobne, proste właściwości statystyczne, ale bardzo odmienne relacje: https://en.wikipedia.org/wiki/Anscombe%27s_quartet

Jedną z wielkich zalet tego warsztatu była wizualizacja i prezentacja różnorodnych struktur zależności i relacji, wykraczających daleko poza standardowe, powierzchowne leczenie. Na przykład Reshefs miał dziesiątki miniaturowych grafik, które reprezentowały jedynie próbkę możliwych nieliniowości. Deep Mukhopadhay miał oszałamiającą grafikę bardzo złożonych relacji, które bardziej przypominały satelitarny widok Himalajów. Autorzy podręczników statystyki i danych muszą wziąć pod uwagę.

Wychodząc z konferencji w Kolumbii wraz z opracowaniem i wizualizacją tych bardzo złożonych struktur zależności w parach, pozostawiłem pytanie o zdolność wielowymiarowych modeli statystycznych do uchwycenia tych nieliniowości i złożoności.

Mike Hunter
źródło
2
Właśnie natrafiłem na tę doskonałą i wyczerpującą dyskusję na temat środków kojarzenia na Quora: quora.com/…
Mike Hunter
6

Zależy to od dokładnej definicji „korelacji”, ale nie jest zbyt trudne do zbudowania zdegenerowanych przypadków. „Niezależny” może oznaczać coś takiego jak „brak mocy predykcyjnej, w ogóle” zawsze „tak samo jak” korelacja liniowa.

y=sin(2000x)x[0,1)

Andrew Charneski
źródło
3

Zasadniczo zależność Y od X oznacza, że ​​rozkład wartości Y zależy od pewnego sposobu wartości X. Zależność ta może dotyczyć średniej wartości Y (zwykły przypadek przedstawiony w większości odpowiedzi) lub jakiejkolwiek innej cechy Y.

Na przykład, niech X będzie wynosić 0 lub 1. Jeśli X = 0, to niech Y będzie 0, jeśli X = 1 niech Y będzie wynosić -1, 0 lub 1 (to samo prawdopodobieństwo). X i Y są nieskorelowane. Średnio Y nie zależy od X, ponieważ niezależnie od wartości X, średnia Y wynosi 0. Ale wyraźnie rozkład wartości Y zależy od wartości X. W tym przypadku, na przykład, wariancja Y wynosi 0, gdy X = 0 i> 0, gdy X = 1, więc istnieje co najmniej zależność od wariancji, tj. Istnieje zależność.

Tak więc korelacja liniowa pokazuje tylko rodzaj zależności od średniej (zależność liniowa), co z kolei jest tylko szczególnym przypadkiem zależności.

Karpablanca
źródło