Przede wszystkim nie pytam o to:
Dlaczego zerowa korelacja nie oznacza niezależności?
Jest to rozwiązane (raczej ładnie) tutaj: /math/444408/why-does-zero-correlation-not-imply-independence
Pytam o coś przeciwnego ... powiedzmy, że dwie zmienne są całkowicie niezależne od siebie.
Czy nie mogliby przez przypadek mieć odrobinę korelacji?
Czy nie powinno być ... niezależność oznacza BARDZO MAŁĄ korelację?
correlation
mathematical-statistics
covariance
independence
Joshua Ronis
źródło
źródło
Odpowiedzi:
Zgodnie z definicją współczynnika korelacji, jeśli dwie zmienne są niezależne, ich korelacja wynosi zero. Tak więc nie mogło być przypadkowo żadnej korelacji!
JeśliX i Y są niezależne, oznacza E[XY]=E[X]E[Y] . Stąd licznik ρX,Y w tym przypadku wynosi zero.
Tak więc, jeśli nie zmienisz znaczenia korelacji, jak wspomniano tutaj, nie jest to możliwe. Chyba że wyjaśnij swoją definicję na podstawie korelacji.
źródło
Pod tym względem nie ma nic specjalnego w rozkładzie wykładniczym. Zmiana rozkładu macierzystego na standardowy normalny dała następujące wyniki.
Dla porównania, tutaj jest odpowiedni histogram korelacji dla par normalnych próbek wielkościn = 20.
Uwaga: inne strony w tej witrynie omawiają dystrybucjęr bardziej szczegółowo; jednym z nich są pytania i odpowiedzi .
źródło
Prosta odpowiedź: jeśli 2 zmienne są niezależne, to korelacja populacji wynosi zero, podczas gdy korelacja próbki będzie zwykle niewielka, ale niezerowa.
Wynika to z faktu, że próba nie stanowi idealnej reprezentacji populacji.
Im większa próba, tym lepiej reprezentuje populację, tym mniejsza będzie korelacja. W przypadku próbki nieskończonej korelacja wynosiłaby zero.
źródło
Być może jest to pomocne dla niektórych osób o tym samym intuicyjnym zrozumieniu. Wszyscy widzieliśmy coś takiego:
Dane te są prawdopodobnie niezależne, ale wyraźnie wykazują korelację (r = 0,66 ). „Myślałem, że niezależność oznacza zerową korelację!” student mówi.
Jak już zauważyli inni, wartości próbek są skorelowane, ale nie oznacza to populacji ma niezerową korelację.
Oczywiście te dwa powinny być niezależne - biorąc pod uwagę, że Nicolas Cage pojawił się w tym roku w rekordowym 10 filmach, ze względów bezpieczeństwa nie powinniśmy zamykać lokalnego basenu na lato.
Ale kiedy sprawdzimy, ile osób utonęło w tym roku, istnieje niewielka szansa, że rekordowe 1000 osób utonie w tym roku.
Uzyskanie takiej korelacji jest mało prawdopodobne. Może jeden na tysiąc. Ale jest to możliwe, mimo że oba są niezależne. Ale to tylko jeden przypadek. Weź pod uwagę, że istnieją miliony możliwych zdarzeń, które można tam zmierzyć, i możesz zobaczyć, że prawdopodobieństwo, że jakieś dwa dadzą wysoką korelację, jest dość wysokie (stąd istnienie takich wykresów jak powyżej).
Innym sposobem spojrzenia na to jest to, że zagwarantowanie, że dwa niezależne zdarzenia zawsze będą dawać nieskorelowane wartości, samo w sobie jest restrykcyjne. Biorąc pod uwagę dwie niezależne kości i wyniki pierwszej, istnieje pewien (spory) zestaw wyników dla drugiej kości, który da pewną niezerową korelację. Ograniczenie wyników drugiej kości w celu uzyskania zerowej korelacji z pierwszą jest wyraźnym naruszeniem niezależności, ponieważ rzuty pierwszych kości wpływają teraz na rozkład wyników.
źródło