Problem z kowariancjami polega na tym, że trudno je porównać: obliczając kowariancję zestawu wysokości i wag, wyrażoną w (odpowiednio) metrach i kilogramach, otrzymasz inną kowariancję niż wtedy, gdy robisz to w innych jednostkach ( co już stanowi problem dla osób robiących to samo z systemem metrycznym lub bez niego!), ale ciężko będzie stwierdzić, czy (np.) wzrost i waga „są bardziej pożądane” niż, powiedzmy, długość twoich palców u rąk i nóg , po prostu dlatego, że „skala”, na której obliczana jest kowariancja, jest inna.
Rozwiązaniem tego jest „normalizacja” kowariancji: dzielisz kowariancję przez coś, co reprezentuje różnorodność i skalę obu zmiennych, i otrzymujesz wartość, która jest pewna, że wynosi od -1 do 1: korelacja. Bez względu na to, w jakiej jednostce znajdowały się twoje pierwotne zmienne, zawsze uzyskasz ten sam wynik, a to zapewni również, do pewnego stopnia, porównanie, czy dwie zmienne „korelują” więcej niż dwie inne, po prostu przez porównanie ich korelacji.
Uwaga: powyższe zakłada, że czytelnik już rozumie pojęcie kowariancji.
cm
, a twój Y jest ws
, to twoje . Następnie możesz po prostu pomnożyć wynik przez współczynnik konwersji jednostki. Spróbuj w R:cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
Wymagania tego typu pytań wydają mi się nieco dziwne. Oto koncepcja / formuła matematyczna , ale chcę o tym porozmawiać w pewnym kontekście całkowicie pozbawionym symboli matematycznych. Sądzę również, że należy stwierdzić, że faktyczną algebrę niezbędną do zrozumienia formuł należy, jak sądzę, nauczyć większości osób przed szkolnictwem wyższym (nie trzeba rozumieć algebry macierzowej, wystarczy zwykła algebra).
Na początku zamiast całkowicie ignorować formułę i mówić o niej w niektórych magicznych i heurystycznych typach analogii, wystarczy spojrzeć na formułę i spróbować wyjaśnić poszczególne składniki małymi krokami. Różnica pod względem kowariancji i korelacji, gdy przyjrzymy się formułom, powinna stać się wyraźna. Mówiąc o analogiach i heurystyce, podejrzewam, że zaciemniłyby dwa stosunkowo proste pojęcia i ich różnice w wielu sytuacjach.
Zacznijmy więc od wzoru na przykładową kowariancję (te, które właśnie wziąłem i zaadaptowałem z wikipedii);
Aby wszyscy przyspieszyli, wyraźne zdefiniowanie wszystkich elementów i operacji w formule.
W tym miejscu mógłbym przedstawić prosty przykład, aby rzucić twarz na elementy i operacje, że tak powiem. Na przykład, po prostu stwórzmy tabelę, w której każdy wiersz odpowiada obserwacji (a i są odpowiednio oznaczone). Prawdopodobnie można by sprecyzować te przykłady (np. Powiedzmy, że reprezentuje wiek, a reprezentuje wagę), ale dla naszej dyskusji tutaj nie powinno to mieć znaczenia.x y x y
W tym momencie, jeśli uważasz, że operacja sumowania w formule mogła nie zostać w pełni zrozumiana, możesz wprowadzić ją ponownie w znacznie prostszym kontekście. Powiedz tylko, że jest tym samym co powiedzenie w tym przykładzie;∑ni=1(xi)
Teraz ten bałagan powinien zostać oczyszczony, a my możemy przejść do drugiej części formuły . Teraz, zakładając, że ludzie już wiedzą, co oznaczają średnie, i , i powiedziałbym, że będąc obłudnym wobec własnych komentarzy wcześniej w poście, można po prostu odnieść się do średniej w kategoriach prosta heurystyka (np. środek rozkładu). Następnie można wykonać ten proces po jednej operacji na raz. Instrukcja(xi−x¯)(yi−y¯) x¯ y¯ (xi−x¯) bada tylko odchylenia / odległość między każdą obserwacją i średnią wszystkich obserwacji dla tego konkretnego atrybutu. Dlatego, gdy obserwacja jest dalsza od średniej, operacja ta otrzyma wyższą wartość. Następnie można powrócić do podanej przykładowej tabeli i po prostu zademonstrować działanie na wektorze obserwacji.x
Operacja jest taka sama dla wektora , ale tylko dla zbrojenia można również przedstawić tę operację.y
Teraz warunki i nie powinny być niejednoznaczne i możemy przejść do następnej operacji, mnożąc te wyniki razem . Jak zauważa Gung w komentarzach, jest to często nazywane iloczynem krzyżowym (być może przydatnym przykładem, który można przywołać, jeśli wprowadzamy podstawową algebrę macierzową dla statystyki).(xi−x¯) (yi−y¯) (xi−x¯)⋅(yi−y¯)
Zwróć uwagę na to, co dzieje się podczas mnożenia, jeśli dwie obserwacje znajdują się w dużej odległości powyżej średniej, wynikowa obserwacja będzie miała jeszcze większą wartość dodatnią (to samo jest prawdą, jeśli obie obserwacje znajdują się w dużej odległości poniżej średniej, ponieważ pomnożenie dwóch negatywów równa się dodatnie). Zauważ również, że jeśli jedna obserwacja jest wysoko powyżej średniej, a druga jest znacznie poniżej średniej, wynikowa wartość będzie duża (w wartościach bezwzględnych) i ujemna (jako dodatnia razy wartość ujemna równa się liczbie ujemnej). Na koniec zauważ, że gdy wartość jest bardzo zbliżona do średniej dla każdej z obserwacji, pomnożenie tych dwóch wartości spowoduje niewielką liczbę. Ponownie możemy po prostu przedstawić tę operację w tabeli.
Teraz, jeśli w pokoju są statystycy, powinni gotować z oczekiwaniem w tym momencie. Widzimy wszystkie osobne elementy tego, czym jest kowariancja i sposób jej obliczania. Teraz wszystko, co musimy zrobić, to zsumować końcowy wynik w poprzedniej tabeli, podzielić przez i voila , kowariancja nie powinna już być mistyczna (wszystko z definiowaniem tylko jednego greckiego symbolu).n−1
W tym momencie możesz chcieć wzmocnić, skąd pochodzi 5, ale powinno to być tak proste, jak odesłanie do tabeli i policzenie liczby obserwacji (ponownie zostawmy różnicę między próbką a populacją na inny czas).
Teraz kowariancja sama w sobie niewiele mówi (może, ale w tym momencie nie trzeba wchodzić w żadne interesujące przykłady bez uciekania się do magicznie, nieokreślonych odniesień do odbiorców). W dobrym scenariuszu tak naprawdę nie musisz sprzedawać, dlaczego powinniśmy przejmować się kowariancją, w innych okolicznościach możesz po prostu mieć nadzieję, że twoi odbiorcy są w niewoli i uwierzą ci na słowo. Ale nadal rozwijając różnicę między tym, czym jest kowariancja, a tym, czym jest korelacja, możemy po prostu odwołać się do wzoru na korelację. Aby zapobiec greckiemu symbolowi, fobia może po prostu powiedzieć, że jest powszechnym symbolem używanym do reprezentowania korelacji.ρ
Ponownie, aby powtórzyć, licznik w powyższym wzorze jest po prostu kowariancją, jak właśnie zdefiniowaliśmy, a mianownik jest pierwiastkiem kwadratowym iloczynu wariancji każdej indywidualnej serii. Jeśli musisz zdefiniować samą wariancję, możesz po prostu powiedzieć, że wariancja jest tym samym co kowariancja szeregu z samym sobą (tj. ). Obowiązują wszystkie te same pojęcia, które wprowadziłeś za pomocą kowariancji (tj. Jeśli szereg ma wiele wartości dalekich od jego średniej, będzie miał dużą wariancję). Być może zauważ tutaj, że seria nie może mieć również wariancji ujemnej (co powinno logicznie wynikać z wcześniej przedstawionej matematyki).Cov(x,x)=Var(x)
Więc jedyne nowe elementy, które wprowadziliśmy, to mianownik . Dzielimy więc kowariancję, którą właśnie obliczyliśmy, przez iloczyn wariancji każdej serii. Można zastanowić się nad tym, dlaczego dzielenie przez zawsze będzie skutkowało wartością z zakresu od -1 do 1, ale podejrzewam, że nierówność Cauchy'ego-Schwarza należy pominąć w programie ta dyskusja. Więc znowu jestem hipokrytą i uciekam się do niektórych, uwierz mi na słowo , ale w tym miejscu możemy przedstawić wszystkie powody, dla których używamy współczynnika korelacji. Następnie można odnieść te lekcje matematyki do heurystyki podanej w innych stwierdzeniach, takich jak odpowiedź Petera FlomaVar(x)Var(y) Var(x)Var(y)−−−−−−−−−−−√ na jedno z pozostałych pytań. Chociaż zostało to skrytykowane za wprowadzenie koncepcji w kategoriach oświadczeń przyczynowych, lekcja ta powinna być również w porządku obrad w pewnym momencie.
Rozumiem, że w niektórych okolicznościach ten poziom leczenia byłby niewłaściwy. Senat potrzebuje streszczenia . W takim razie możesz odwołać się do prostej heurystyki, którą ludzie używali w innych przykładach, ale Rzym nie został zbudowany w ciągu jednego dnia. I do senatu, który prosi o streszczenie, jeśli masz tak mało czasu, być może powinieneś po prostu uwierzyć mi na słowo i zrezygnować z formalności związanych z analogiami i punktatorami.
źródło
Korelacja (r) to kowariancja (cov) twoich zmiennych (x i y) podzielona przez (lub skorygowana innymi słowy) każdym z ich odchyleń standardowych ( ).Var[x]Var[y]−−−−−−−−−−−√
Oznacza to, że korelacja jest po prostu reprezentacją kowariancji, więc wynik musi leżeć między -1 (idealnie odwrotnie skorelowany) a +1 (idealnie pozytywnie skorelowany), zauważając, że wartość bliska zeru oznacza, że dwie zmienne są nieskorelowane.
Kowariancja jest nieograniczona i nie ma kontekstu w porównaniu z innymi kowariancjami. Normalizując / dostosowując / standaryzując kowariancje do korelacji, zbiory danych można łatwiej porównywać.
Jak można sobie wyobrazić, istnieją różne sposoby normalizacji / standaryzacji statystyki (np. Kowariancja). Wzór matematyczny na związek między korelacją a kowariancją po prostu odzwierciedla konwencję stosowaną przez statystyków (mianowicie dostosowywanie zgodnie z ich standardowymi odchyleniami):
źródło
Jeśli znasz pomysł centrowania i standaryzacji, x-xbar ma wyśrodkować x na jego średniej. To samo dotyczy y. Zatem kowariancja po prostu centruje dane. Korelacja nie tylko wyśrodkowuje dane, ale także skaluje przy użyciu odchylenia standardowego (standaryzacja). Mnożenie i sumowanie jest iloczynem kropkowym dwóch wektorów i pokazuje, jak równoległe są te dwa wektory w porównaniu do siebie (rzut jednego wektora na drugi). Podział (n-1) lub przyjmowanie oczekiwanej wartości ma być skalowane dla liczby obserwacji. Myśli?
źródło
O ile rozumiem. Korelacja jest „znormalizowaną” wersją kowariancji.
źródło
Korelacja jest skalowana w zakresie od -1 do +1 w zależności od tego, czy istnieje korelacja dodatnia czy ujemna i jest bezwymiarowa. Jednak kowariancja waha się od zera, w przypadku dwóch zmiennych niezależnych, do Var (X), w przypadku gdy dwa zestawy danych są równe. Jednostki COV (X, Y) to jednostki X razy jednostki Y.
źródło
The units of COV(X,Y) are the units of X times the units of Y.
czy chcesz to rozwinąć?