Próbowałem lepiej zrozumieć kowariancję dwóch zmiennych losowych i zrozumieć, jak pierwsza osoba, która o tym pomyślała, doszła do definicji rutynowo stosowanej w statystyce. Poszedłem na wikipedię, aby lepiej to zrozumieć. Z artykułu wynika, że dobra miara kandydata lub ilość dla powinna mieć następujące właściwości:
- Powinien mieć znak dodatni, gdy dwie zmienne losowe są podobne (tj. Gdy jedna zwiększa drugą, a druga zmniejsza również drugą).
- Chcemy również, aby miał znak ujemny, gdy dwie zmienne losowe są przeciwnie do siebie podobne (tj. Gdy jedna zwiększa się, druga zmienna losowa ma tendencję do zmniejszania się)
- Na koniec chcemy, aby ta kowariancja była równa zero (lub prawdopodobnie bardzo mała?), Gdy dwie zmienne są od siebie niezależne (tj. Nie różnią się względem siebie).
Z powyższych właściwości chcemy zdefiniować . Moje pierwsze pytanie brzmi: nie jest dla mnie całkowicie oczywiste, dlaczego spełnia te właściwości. Na podstawie posiadanych właściwości spodziewałbym się, że bardziej równanie podobne do „pochodnej” będzie idealnym kandydatem. Na przykład coś bardziej podobnego: „jeśli zmiana w X jest dodatnia, to zmiana w Y również powinna być dodatnia”. Ponadto, dlaczego odbierać różnicę od tego, co znaczy „poprawne” działanie?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]
Bardziej styczne, ale wciąż interesujące pytanie, czy istnieje inna definicja, która mogłaby zaspokoić te właściwości i nadal byłaby znacząca i przydatna? Pytam o to, ponieważ wydaje się, że nikt nie kwestionuje, dlaczego używamy tej definicji w pierwszej kolejności (wydaje się, że „zawsze tak było”, co moim zdaniem jest okropnym powodem i utrudnia naukową i matematyczna ciekawość i myślenie). Czy przyjęta definicja jest „najlepszą” definicją, jaką możemy mieć?
Oto moje przemyślenia na temat tego, dlaczego przyjęta definicja ma sens (będzie to tylko intuicyjny argument):
Niech będzie pewną różnicą dla zmiennej X (tj. Zmieniła się z pewnej wartości na inną wartość w pewnym momencie). Podobnie jest w przypadku definicji .Δ Y
Dla jednej instancji w czasie możemy obliczyć, czy są one powiązane, wykonując:
To jest całkiem miłe! Dla jednej instancji w czasie spełnia pożądane właściwości. Jeśli oba wzrosną razem, wówczas przez większość czasu powyższa ilość powinna być dodatnia (i podobnie, gdy są przeciwnie podobne, będzie ujemna, ponieważ znaki będą miały przeciwne znaki).
Ale to daje nam tylko ilość, której chcemy dla jednego wystąpienia w czasie, a ponieważ są one wartościami rv, możemy się dopasować, jeśli zdecydujemy się oprzeć relację dwóch zmiennych na podstawie tylko 1 obserwacji. Dlaczego więc nie spodziewać się tego, aby zobaczyć „przeciętny” produkt różnic.
Co powinno uchwycić średnio średnią relację zdefiniowaną powyżej! Ale jedynym problemem tego wyjaśnienia jest to, od czego mierzymy tę różnicę? Wydaje się, że można to rozwiązać, mierząc tę różnicę od średniej (co z jakiegoś powodu jest słuszne).
Wydaje mi się, że głównym problemem z definicją jest wzięcie różnicy od średniej . Wydaje mi się, że nie mogę sobie tego jeszcze uzasadnić.
Interpretację znaku można pozostawić do innego pytania, ponieważ wydaje się to bardziej skomplikowanym tematem.
źródło
Odpowiedzi:
Wyobraź sobie, że zaczynamy od pustego stosu liczb. Następnie zaczynamy rysować pary z ich wspólnego rozkładu. Może się zdarzyć jedna z czterech rzeczy:( X, Y)
Następnie, aby uzyskać ogólną miarę (nie) podobieństwa X i Y, dodajemy wszystkie wartości liczb na stosie. Dodatnia suma sugeruje, że zmienne poruszają się w tym samym kierunku w tym samym czasie. Suma ujemna sugeruje, że zmienne poruszają się częściej w przeciwnych kierunkach. Suma zerowa sugeruje, że znajomość kierunku jednej zmiennej niewiele mówi o kierunku drugiej.
Ważne jest, aby myśleć o „większym niż średnia”, a nie tylko „dużym” (lub „dodatnim”), ponieważ dowolne dwie nieujemne zmienne zostałyby wówczas ocenione jako podobne (np. Wielkość następnej awarii samochodu na M42 i liczba biletów zakupionych jutro na stacji Paddington).
Formuła kowariancji jest formalizacją tego procesu:
Wykorzystując rozkład prawdopodobieństwa zamiast symulacji Monte Carlo i określając rozmiar liczby, którą umieszczamy na stosie.
źródło
Oto mój intuicyjny sposób patrzenia na to bez żadnych równań.
Jest to uogólnienie wariancji na wyższe wymiary. Motywacja prawdopodobnie wynikała z próby opisania zachowania danych. Na pierwsze zamówienie mamy jego lokalizację - średnią. Do drugiego rzędu mamy rozproszenie - kowariancję.
punkt rozproszenia jest oceniany względem środka rozkładu. Najbardziej podstawową definicją wariancji jest „średnie odchylenie od średniej”. dlatego należy odjąć średnią także w przypadku kowariancji.
Inną główną motywacją, która przychodzi na myśl, jest potrzeba zdefiniowania sposobu pomiaru odległości między zmiennymi losowymi. Odległość Mahalanobisa i kowariancja idą w parze: biorąc pod uwagę rozkład Gaussa i dwie inne próbki, które mają równą odległość euklidesową do średniej rozkładu. Gdybym zapytał cię, która z próbek jest bardziej oddalona, która nie została wyciągnięta z rozkładu gaussowskiego, odległość euklidesowa nie zrobi tego. Odległość Mahalanobisa ma jedną zauważalną różnicę w stosunku do odległości euklidesowej: bierze pod uwagę rozproszenie (kowariancję) rozkładu. Umożliwia to uogólnienie odległości do zmiennych losowych.
źródło
źródło
Zastanawiałem się nad tym samym pytaniem, a intuicja podana w domysłach pomogła mi. Aby zwizualizować intuicję, wziąłem dwa losowe wektory normalne, xiy, wykreśliłem wykres rozproszenia i pokolorowałem każdy punkt iloczynem ich odchyleń od ich odpowiednich średnich (niebieski dla wartości dodatnich, czerwony dla wartości ujemnych).
Jak wynika z wykresu, produkt jest najbardziej dodatni w prawym górnym i lewym dolnym kwadrancie, a najbardziej ujemny w prawym dolnym i lewym górnym kwadrancie. Efekt zsumowania produktów dałby 0, ponieważ niebieskie punkty anulują czerwone.
Ale widać, że jeśli usuniemy czerwone punkty, pozostałe dane wykażą pozytywną relację między sobą, co jest potwierdzone przez dodatnią sumę produktów (tj. Sumę niebieskich punktów).
źródło
w przestrzeni wektorowej zmiennych losowych uzasadnione jest zdefiniowanie kwadratu odległości między dwiema zmiennymi losowymi x i y za pomocą E {(xy) ^ 2} teraz w odniesieniu do tej definicji iloczynu iloczynu odległości lub relacji zmiennych losowych będzie E {xy}, która jest tak podobna do definicji kowariancji, z wyjątkiem terminów -E {x} i -E {y}, które służą do pewnego rodzaju normalizacji.
źródło