Jak wyjaśniłbyś różnicę między korelacją a kowariancją?

109

W odpowiedzi na to pytanie, jak wyjaśniłbyś kowariancję komuś, kto rozumie tylko środek? , który dotyczy kwestii wyjaśniania kowariancji świeckim, przywołał podobne pytanie.

Jak wyjaśnić statystykom różnicę między kowariancją a korelacją ? Wygląda na to, że oba odnoszą się do zmiany jednej zmiennej powiązanej z inną zmienną.

Podobnie jak w pytaniu prejudycjalnym preferowany byłby brak wzorów.

pmgjones
źródło

Odpowiedzi:

109

Problem z kowariancjami polega na tym, że trudno je porównać: obliczając kowariancję zestawu wysokości i wag, wyrażoną w (odpowiednio) metrach i kilogramach, otrzymasz inną kowariancję niż wtedy, gdy robisz to w innych jednostkach ( co już stanowi problem dla osób robiących to samo z systemem metrycznym lub bez niego!), ale ciężko będzie stwierdzić, czy (np.) wzrost i waga „są bardziej pożądane” niż, powiedzmy, długość twoich palców u rąk i nóg , po prostu dlatego, że „skala”, na której obliczana jest kowariancja, jest inna.

Rozwiązaniem tego jest „normalizacja” kowariancji: dzielisz kowariancję przez coś, co reprezentuje różnorodność i skalę obu zmiennych, i otrzymujesz wartość, która jest pewna, że ​​wynosi od -1 do 1: korelacja. Bez względu na to, w jakiej jednostce znajdowały się twoje pierwotne zmienne, zawsze uzyskasz ten sam wynik, a to zapewni również, do pewnego stopnia, porównanie, czy dwie zmienne „korelują” więcej niż dwie inne, po prostu przez porównanie ich korelacji.

Uwaga: powyższe zakłada, że ​​czytelnik już rozumie pojęcie kowariancji.

Nick Sabbe
źródło
2
+1 Czy miałeś na myśli napisanie „korelacja” zamiast „kowariancji” w ostatnim zdaniu?
whuber
Czy na pewno nie możesz porównać kowariancji z różnymi jednostkami? Jednostki przechodzą przez kowariancję pomnożoną - jeśli twój X jest wcm , a twój Y jest ws , to twoje . Następnie możesz po prostu pomnożyć wynik przez współczynnik konwersji jednostki. Spróbuj w R:cov(X,Y)=z cmscov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
naught101
3
@ naught101 Podejrzewam, że chodzi o to, że gdybym ci powiedział, że i nic więcej, nie miałbyś pojęcia, czy jest wysoce przewidywalny względem czy nie, podczas gdybym powiedział, że miałbyś coś bardziej zrozumiałego. Cov(X,Y)=1010XYCor(X,Y)=.9
facet
@guy: To byłyby kowariancje bez jednostek: PI uważa, że ​​ważne jest to, że nie można łatwo porównać kowariancji z dwóch zestawów danych, które mają różne wariancje. Na przykład, jeśli masz relację B = 2 * A i dwa zestawy danych, {A1, B1} i {A2, B2}, gdzie A1 ma wariancję 0,5, a A2 ma wariancję 2, to będzie znacznie większy niż , nawet jeśli związek jest dokładnie taki sam. cov(A2,B2)cov(A1,B1)
naught101
3
Tak więc w prostych słowach korelacja> kowariancja
Karl Morrison
58

Wymagania tego typu pytań wydają mi się nieco dziwne. Oto koncepcja / formuła matematyczna , ale chcę o tym porozmawiać w pewnym kontekście całkowicie pozbawionym symboli matematycznych. Sądzę również, że należy stwierdzić, że faktyczną algebrę niezbędną do zrozumienia formuł należy, jak sądzę, nauczyć większości osób przed szkolnictwem wyższym (nie trzeba rozumieć algebry macierzowej, wystarczy zwykła algebra).

Na początku zamiast całkowicie ignorować formułę i mówić o niej w niektórych magicznych i heurystycznych typach analogii, wystarczy spojrzeć na formułę i spróbować wyjaśnić poszczególne składniki małymi krokami. Różnica pod względem kowariancji i korelacji, gdy przyjrzymy się formułom, powinna stać się wyraźna. Mówiąc o analogiach i heurystyce, podejrzewam, że zaciemniłyby dwa stosunkowo proste pojęcia i ich różnice w wielu sytuacjach.

Zacznijmy więc od wzoru na przykładową kowariancję (te, które właśnie wziąłem i zaadaptowałem z wikipedii);

1n1i=1n(xix¯)(yiy¯)

Aby wszyscy przyspieszyli, wyraźne zdefiniowanie wszystkich elementów i operacji w formule.

  • xi i to pomiary dwóch oddzielnych atrybutów tej samej obserwacjiyi
  • x¯ i są średnią (lub średnią) każdego atrybutuy¯
  • W przypadku powiedzmy, że oznacza to, że dzielimy wynik końcowy przez .1n1n1
  • i=1n może być dla niektórych obcym symbolem, więc prawdopodobnie przydatne byłoby wyjaśnienie tej operacji. Jest to po prostu suma wszystkich oddzielić obserwacje, a oznacza całkowitą liczbę obserwacji.in

W tym miejscu mógłbym przedstawić prosty przykład, aby rzucić twarz na elementy i operacje, że tak powiem. Na przykład, po prostu stwórzmy tabelę, w której każdy wiersz odpowiada obserwacji (a i są odpowiednio oznaczone). Prawdopodobnie można by sprecyzować te przykłady (np. Powiedzmy, że reprezentuje wiek, a reprezentuje wagę), ale dla naszej dyskusji tutaj nie powinno to mieć znaczenia.xyxy

x y
---
2 5
4 8
9 3
5 6
0 8

W tym momencie, jeśli uważasz, że operacja sumowania w formule mogła nie zostać w pełni zrozumiana, możesz wprowadzić ją ponownie w znacznie prostszym kontekście. Powiedz tylko, że jest tym samym co powiedzenie w tym przykładzie;i=1n(xi)

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

Teraz ten bałagan powinien zostać oczyszczony, a my możemy przejść do drugiej części formuły . Teraz, zakładając, że ludzie już wiedzą, co oznaczają średnie, i , i powiedziałbym, że będąc obłudnym wobec własnych komentarzy wcześniej w poście, można po prostu odnieść się do średniej w kategoriach prosta heurystyka (np. środek rozkładu). Następnie można wykonać ten proces po jednej operacji na raz. Instrukcja(xix¯)(yiy¯)x¯y¯(xix¯)bada tylko odchylenia / odległość między każdą obserwacją i średnią wszystkich obserwacji dla tego konkretnego atrybutu. Dlatego, gdy obserwacja jest dalsza od średniej, operacja ta otrzyma wyższą wartość. Następnie można powrócić do podanej przykładowej tabeli i po prostu zademonstrować działanie na wektorze obserwacji.x

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

Operacja jest taka sama dla wektora , ale tylko dla zbrojenia można również przedstawić tę operację.y

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

Teraz warunki i nie powinny być niejednoznaczne i możemy przejść do następnej operacji, mnożąc te wyniki razem . Jak zauważa Gung w komentarzach, jest to często nazywane iloczynem krzyżowym (być może przydatnym przykładem, który można przywołać, jeśli wprowadzamy podstawową algebrę macierzową dla statystyki).(xix¯)(yiy¯)(xix¯)(yiy¯)

Zwróć uwagę na to, co dzieje się podczas mnożenia, jeśli dwie obserwacje znajdują się w dużej odległości powyżej średniej, wynikowa obserwacja będzie miała jeszcze większą wartość dodatnią (to samo jest prawdą, jeśli obie obserwacje znajdują się w dużej odległości poniżej średniej, ponieważ pomnożenie dwóch negatywów równa się dodatnie). Zauważ również, że jeśli jedna obserwacja jest wysoko powyżej średniej, a druga jest znacznie poniżej średniej, wynikowa wartość będzie duża (w wartościach bezwzględnych) i ujemna (jako dodatnia razy wartość ujemna równa się liczbie ujemnej). Na koniec zauważ, że gdy wartość jest bardzo zbliżona do średniej dla każdej z obserwacji, pomnożenie tych dwóch wartości spowoduje niewielką liczbę. Ponownie możemy po prostu przedstawić tę operację w tabeli.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

Teraz, jeśli w pokoju są statystycy, powinni gotować z oczekiwaniem w tym momencie. Widzimy wszystkie osobne elementy tego, czym jest kowariancja i sposób jej obliczania. Teraz wszystko, co musimy zrobić, to zsumować końcowy wynik w poprzedniej tabeli, podzielić przez i voila , kowariancja nie powinna już być mistyczna (wszystko z definiowaniem tylko jednego greckiego symbolu).n1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

W tym momencie możesz chcieć wzmocnić, skąd pochodzi 5, ale powinno to być tak proste, jak odesłanie do tabeli i policzenie liczby obserwacji (ponownie zostawmy różnicę między próbką a populacją na inny czas).

Teraz kowariancja sama w sobie niewiele mówi (może, ale w tym momencie nie trzeba wchodzić w żadne interesujące przykłady bez uciekania się do magicznie, nieokreślonych odniesień do odbiorców). W dobrym scenariuszu tak naprawdę nie musisz sprzedawać, dlaczego powinniśmy przejmować się kowariancją, w innych okolicznościach możesz po prostu mieć nadzieję, że twoi odbiorcy są w niewoli i uwierzą ci na słowo. Ale nadal rozwijając różnicę między tym, czym jest kowariancja, a tym, czym jest korelacja, możemy po prostu odwołać się do wzoru na korelację. Aby zapobiec greckiemu symbolowi, fobia może po prostu powiedzieć, że jest powszechnym symbolem używanym do reprezentowania korelacji.ρ

ρ=Cov(x,y)Var(x)Var(y)

Ponownie, aby powtórzyć, licznik w powyższym wzorze jest po prostu kowariancją, jak właśnie zdefiniowaliśmy, a mianownik jest pierwiastkiem kwadratowym iloczynu wariancji każdej indywidualnej serii. Jeśli musisz zdefiniować samą wariancję, możesz po prostu powiedzieć, że wariancja jest tym samym co kowariancja szeregu z samym sobą (tj. ). Obowiązują wszystkie te same pojęcia, które wprowadziłeś za pomocą kowariancji (tj. Jeśli szereg ma wiele wartości dalekich od jego średniej, będzie miał dużą wariancję). Być może zauważ tutaj, że seria nie może mieć również wariancji ujemnej (co powinno logicznie wynikać z wcześniej przedstawionej matematyki).Cov(x,x)=Var(x)

Więc jedyne nowe elementy, które wprowadziliśmy, to mianownik . Dzielimy więc kowariancję, którą właśnie obliczyliśmy, przez iloczyn wariancji każdej serii. Można zastanowić się nad tym, dlaczego dzielenie przez zawsze będzie skutkowało wartością z zakresu od -1 do 1, ale podejrzewam, że nierówność Cauchy'ego-Schwarza należy pominąć w programie ta dyskusja. Więc znowu jestem hipokrytą i uciekam się do niektórych, uwierz mi na słowo , ale w tym miejscu możemy przedstawić wszystkie powody, dla których używamy współczynnika korelacji. Następnie można odnieść te lekcje matematyki do heurystyki podanej w innych stwierdzeniach, takich jak odpowiedź Petera FlomaVar(x)Var(y)Var(x)Var(y)na jedno z pozostałych pytań. Chociaż zostało to skrytykowane za wprowadzenie koncepcji w kategoriach oświadczeń przyczynowych, lekcja ta powinna być również w porządku obrad w pewnym momencie.

Rozumiem, że w niektórych okolicznościach ten poziom leczenia byłby niewłaściwy. Senat potrzebuje streszczenia . W takim razie możesz odwołać się do prostej heurystyki, którą ludzie używali w innych przykładach, ale Rzym nie został zbudowany w ciągu jednego dnia. I do senatu, który prosi o streszczenie, jeśli masz tak mało czasu, być może powinieneś po prostu uwierzyć mi na słowo i zrezygnować z formalności związanych z analogiami i punktatorami.

Andy W.
źródło
4
Całkowicie zgadzam się z poglądem, że pytanie to w jakiś sposób wykracza poza cel tego forum. Definicja kowariancji jako jest najbardziej przejrzysta wyjaśnienie, które można zaproponować. Wykorzystuje jedynie pojęcie oczekiwania. Unikanie formuły prowadzi do koniecznie niekompletnych i potencjalnie wprowadzających w błąd wersji. I to nie może zapewnić czytelnikowi człowieka do obliczenia kowariancji / korelacji w nowej sytuacji. Nie najlepszy sposób na walkę z licznością.
cov(X,Y)=E[(XE[X])(YE[Y])]
Xi'an
14
+1, to całkiem nieźle. Nie byłbym jednak tak krytyczny wobec wstępnych koncepcji. Pracowałem z ludźmi z wystarczającą ilością lęku matematycznego, że pokazanie formuły może je stracić. I zazwyczaj je do prędkości w / 1 intuicji, a następnie przejść przez matematyki prosto i dokładnie (podobnie jak to zrobić tutaj) potem . W ten sposób uczą się tylko, w jaki sposób matematyka reprezentuje to, co już wiedzą, a jeśli porzucą umysł, nadal poznają wielkie pomysły. Jako punkt styczny pracuję nad matematyką w Excelu, co jest dla mnie bardzo dobre.
gung
2
Kilka drobiazgów (przepraszam): w swoim najwyższym równaniu dzielisz przez , ale następnie (poprawnie) omawiasz dzielenie przez w powiązanym punkcie; Mogę zauważyć, że nazywa się „produktem krzyżowym”; skoro mówiłeś o przykładowej kowariancji, kiedy przejdziesz do korelacji, mogę pominąć te informacje o i po prostu użyć ; na koniec korelacja jest obliczana na podstawie kowariancji poprzez skalowanie jej względem SD , a nie wariancji, patrz tutaj np. N - 1 ( x i - ˉ x ) ( y i - ˉ y ) ρ rNN1(xix¯)(yiy¯)ρr
gung
Dzięki @gung zmieniłem literówkę w pierwszej formule, a następnie dla korelacji wziąłem pierwiastek kwadratowy pomnożonych wariancji (zamiast definiować odchylenie standardowe). Używając rho kontra inny symbol, nie czuję się zbyt silnie w żaden sposób. Gdybym uczył i miał podręcznik, prawdopodobnie po prostu chciałbym dostosować się do tekstu. Mam nadzieję, że jeszcze jeden grecki symbol nie spowoduje chaosu!
Andy W
1
Gdybym mógł 100 razy głosować na twoją odpowiedź, zrobiłbym to. Cóż za przerażająco jasne wyjaśnienie!
Julian A.
10

Korelacja (r) to kowariancja (cov) twoich zmiennych (x i y) podzielona przez (lub skorygowana innymi słowy) każdym z ich odchyleń standardowych ( ).Var[x]Var[y]

Oznacza to, że korelacja jest po prostu reprezentacją kowariancji, więc wynik musi leżeć między -1 (idealnie odwrotnie skorelowany) a +1 (idealnie pozytywnie skorelowany), zauważając, że wartość bliska zeru oznacza, że ​​dwie zmienne są nieskorelowane.

Kowariancja jest nieograniczona i nie ma kontekstu w porównaniu z innymi kowariancjami. Normalizując / dostosowując / standaryzując kowariancje do korelacji, zbiory danych można łatwiej porównywać.

Jak można sobie wyobrazić, istnieją różne sposoby normalizacji / standaryzacji statystyki (np. Kowariancja). Wzór matematyczny na związek między korelacją a kowariancją po prostu odzwierciedla konwencję stosowaną przez statystyków (mianowicie dostosowywanie zgodnie z ich standardowymi odchyleniami):

r=cov(x,y)Var[x]Var[y]
D Dawg
źródło
5

Jeśli znasz pomysł centrowania i standaryzacji, x-xbar ma wyśrodkować x na jego średniej. To samo dotyczy y. Zatem kowariancja po prostu centruje dane. Korelacja nie tylko wyśrodkowuje dane, ale także skaluje przy użyciu odchylenia standardowego (standaryzacja). Mnożenie i sumowanie jest iloczynem kropkowym dwóch wektorów i pokazuje, jak równoległe są te dwa wektory w porównaniu do siebie (rzut jednego wektora na drugi). Podział (n-1) lub przyjmowanie oczekiwanej wartości ma być skalowane dla liczby obserwacji. Myśli?

użytkownik31180
źródło
3

O ile rozumiem. Korelacja jest „znormalizowaną” wersją kowariancji.

Karl Morrison
źródło
2
Jak potwierdza wiele postów , „normalizacja” ma wiele różnych znaczeń. Z którego korzystasz?
whuber
-3

Korelacja jest skalowana w zakresie od -1 do +1 w zależności od tego, czy istnieje korelacja dodatnia czy ujemna i jest bezwymiarowa. Jednak kowariancja waha się od zera, w przypadku dwóch zmiennych niezależnych, do Var (X), w przypadku gdy dwa zestawy danych są równe. Jednostki COV (X, Y) to jednostki X razy jednostki Y.

Nagaraj
źródło
6
Kowariancja może być ujemna, więc nie jest ograniczona do 0. Nie jest dla mnie jasne, co rozumiesz przez ostatnie zdanie, The units of COV(X,Y) are the units of X times the units of Y.czy chcesz to rozwinąć?
Andy W
@AndyW, czy jednostki nie są jednoznaczne z definicji? . Operator oczekiwania jest po prostu średnią ważoną wartości X / Y, a jednostki przechodzą. Cov(X,Y)=E[(XE[X])(YE[Y])]
naught101
1
@ naught101, Jednostki przechodzą? Mój pierwszy komentarz do Nagaraja miał na celu zwiększenie jasności, ponieważ dwuznaczne stwierdzenia, takie jak cytowane przeze mnie, nie byłyby pomocne dla nikogo. Dlaczego więc nie możemy interpretować kowariancji jako „jednostek x pomnożonych przez jednostki y”, ponieważ tak nie jest. Potencjalnie bardziej poprawnym stwierdzeniem (dla kowariancji próbki) byłoby „ średnia z iloczynów średnich odchyleń ”. cd ...
Andy W
1
Teraz średnie odchylenia z pewnością nie są takie same jak oryginalne jednostki, a wynikowa statystyka kowariancji nie jest po prostu zależna od średniej i wariancji oryginalnych atrybutów. Kowariancja sama w sobie nic nie mówi, nie znając wariancji oryginalnych atrybutów.
Andy W