... zakładając, że jestem w stanie poszerzyć swoją wiedzę na temat wariancji w intuicyjny sposób (intuicyjnie rozumiem „wariancję” ) lub mówiąc: Jest to średnia odległość wartości danych od „średniej” - i ponieważ wariancja jest kwadratowa jednostki, bierzemy pierwiastek kwadratowy, aby utrzymać te same jednostki, co nazywa się odchyleniem standardowym.
Załóżmy, że tyle jest wyrażone i (miejmy nadzieję) zrozumiane przez „odbiorcę”. Czym jest kowariancja i jak wyjaśnić ją prostym angielskim bez użycia matematycznych terminów / formuł? (Tj. Intuicyjne wyjaśnienie;)
Uwaga: znam formuły i matematykę leżące u podstaw tej koncepcji. Chcę być w stanie „wyjaśnić” to samo w łatwy do zrozumienia sposób, bez uwzględnienia matematyki; tzn. co w ogóle oznacza „kowariancja”?
źródło
Odpowiedzi:
Czasami możemy „poszerzyć wiedzę” za pomocą nietypowego lub innego podejścia. Chciałbym, aby ta odpowiedź była dostępna dla przedszkolaków, a także dobrze się bawić, aby wszyscy wyciągnęli kredki!
Biorąc pod uwagę sparowane dane , narysuj ich wykres rozrzutu. (Młodsi uczniowie mogą potrzebować nauczyciela, aby to dla nich stworzył. :-) Każda para punktów , na tym wykresie określa prostokąt: jest to najmniejszy prostokąt, którego boki są równoległe do osie zawierające te punkty. Punkty znajdują się zatem w prawym górnym i lewym dolnym rogu (relacja „dodatnia”) lub w lewym górnym i prawym dolnym rogu (relacja „ujemna”).(x,y) (xi,yi) (xj,yj)
Narysuj wszystkie możliwe takie prostokąty. Pokoloruj je przezroczyście, dzięki czemu dodatnie prostokąty będą czerwone (powiedzmy), a ujemne prostokąty „anty-czerwone” (niebieskie). W ten sposób wszędzie tam, gdzie prostokąty się nakładają, ich kolory są albo poprawiane, gdy są takie same (niebieski i niebieski lub czerwony i czerwony), lub anulowane, gdy są różne.
( Na tej ilustracji dodatniego (czerwonego) i ujemnego (niebieskiego) prostokąta nakładka powinna być biała; niestety to oprogramowanie nie ma prawdziwego koloru „czerwonego”. Nakładka jest szara, więc przyciemni fabuła, ale ogólnie ilość netto czerwieni jest poprawna ).
Teraz jesteśmy gotowi na wyjaśnienie kowariancji.
Kowariancja jest ilością netto czerwieni na wykresie (traktując niebieski jako wartości ujemne).
Oto kilka przykładów z 32 punktami dwumianowymi wyciągniętymi z rozkładów o podanych kowariancjach, uporządkowanych od najbardziej negatywnych (najciemniejszych) do najbardziej pozytywnych (najbardziej czerwonych).
Rysowane są na wspólnych osiach, aby były porównywalne. Prostokąty są lekko obrysowane, aby pomóc Ci je zobaczyć. To jest zaktualizowana wersja oryginału (2019): używa oprogramowania, które prawidłowo kasuje kolory czerwony i cyjan w nakładających się prostokątach.
Wydedukujmy pewne właściwości kowariancji. Zrozumienie tych właściwości będzie dostępne dla każdego, kto faktycznie narysował kilka prostokątów. :-)
Dwuliniowość. Ponieważ ilość czerwieni zależy od wielkości wykresu, kowariancja jest wprost proporcjonalna do skali na osi x i do skali na osi y.
Korelacja. Kowariancja rośnie, gdy punkty zbliżają się do linii opadającej w górę i maleje, gdy punkty zbliżają się do linii opadającej w dół. Wynika to z faktu, że w pierwszym przypadku większość prostokątów jest dodatnia, aw drugim przypadku większość jest ujemna.
Związek z powiązaniami liniowymi. Ponieważ powiązania nieliniowe mogą tworzyć mieszanki dodatnich i ujemnych prostokątów, prowadzą one do nieprzewidywalnych (i niezbyt przydatnych) kowariancji. Powiązania liniowe można w pełni interpretować za pomocą dwóch poprzednich charakterystyk.
Wrażliwość na wartości odstające. Geometryczna wartość odstająca (jeden punkt oddalony od masy) stworzy wiele dużych prostokątów w połączeniu ze wszystkimi innymi punktami. Już samo to może stworzyć dodatnią lub ujemną ilość czerwieni na całym obrazie.
Nawiasem mówiąc, ta definicja kowariancji różni się od zwykłej jedynie uniwersalną stałą proporcjonalności (niezależną od wielkości zestawu danych). Skłonni matematycznie nie będą mieli problemów z wykonaniem algebraicznego pokazu, że podana tu formuła jest zawsze dwa razy większa niż zwykła kowariancja.
źródło
Wypracowanie na moim komentarzu użyłem uczyć kowariancji jako miara (średnia) Współpraca zmienności pomiędzy dwiema zmiennymi, powiedzmy i y .x r
Warto przypomnieć podstawową formułę (prostą do wyjaśnienia, nie trzeba mówić o matematycznych oczekiwaniach dotyczących kursu wprowadzającego):
tak abyśmy wyraźnie widzieli, że każda obserwacja może pozytywnie lub negatywnie przyczynić się do kowariancji, w zależności od iloczynu ich odchylenia od średniej z dwóch zmiennych ˉ x i ˉ y . Zauważ, że nie mówię tu o wielkości, ale o znaku wkładu i-tej obserwacji.( xja, yja) x¯ r¯
To właśnie przedstawiłem na poniższych schematach. Sztuczne dane zostały wygenerowane przy użyciu modelu liniowego (lewy, ; prawy, y = 0,1 x + ε , gdzie ε zostały narysowane z rozkładu gaussowskiego ze średnią zerową i SD = 2 , a x z rozkładu jednolitego na interwał [ 0 , 20 ] ).r= 1,2 x + ε r= 0,1 x + ε ε SD = 2 x [ 0 , 20 ]
źródło
Kowariancja jest miarą tego, o ile jedna zmienna idzie w górę, gdy druga w górę.
źródło
I 'm odpowiadając na moje własne pytanie, ale pomyślałem, że to byłoby idealne dla ludzi, napotykając tego postu, aby sprawdzić niektóre z wyjaśnień na tej stronie .
Parafrazuję jedną z bardzo dobrze wyartykułowanych odpowiedzi (autorstwa użytkownika „Zhop”). Robię to na wypadek, gdyby ta strona została zamknięta lub strona została zdjęta, gdy ktoś od tej chwili uzyska dostęp do tego postu;)
Dodanie kolejnego (autorstwa „CatofGrey”), który pomaga zwiększyć intuicję:
Te dwa razem sprawiły, że zrozumiałem kowariancję, jakiej nigdy wcześniej nie rozumiałem! Po prostu niesamowite!!
źródło
Bardzo podoba mi się odpowiedź Whubera, więc zebrałem trochę więcej zasobów. Kowariancja opisuje zarówno to, jak daleko rozłożone są zmienne, jak i charakter ich relacji.
Kowariancja wykorzystuje prostokąty do opisania odległości obserwacji od średniej na wykresie punktowym:
Jeśli prostokąt ma długie boki i dużą szerokość lub krótkie boki i krótką szerokość, stanowi to dowód, że dwie zmienne poruszają się razem.
Jeśli prostokąt ma dwa boki, które są stosunkowo długie dla tych zmiennych, i dwa boki, które są stosunkowo krótkie dla drugiej zmiennej, ta obserwacja dostarcza dowodów, że zmienne nie poruszają się razem bardzo dobrze.
Jeśli prostokąt znajduje się w 2. lub 4. ćwiartce, to gdy jedna zmienna jest większa niż średnia, druga jest mniejsza niż średnia. Wzrost jednej zmiennej wiąże się ze spadkiem drugiej.
Znalazłem fajną wizualizację tego na http://sciguides.com/guides/covariance/. Wyjaśnia to, czym jest kowariancja, jeśli tylko znasz jej znaczenie.
źródło
Oto kolejna próba wyjaśnienia kowariancji obrazem. Każdy panel na poniższym zdjęciu zawiera 50 punktów symulowanych z dwuwymiarowego rozkładu z korelacją między xiy y 0,8 a wariancjami, jak pokazano na etykietach wierszy i kolumn. Kowariancja jest pokazana w prawym dolnym rogu każdego panelu.
Każdy zainteresowany poprawą tego ... oto kod R:
źródło
Uwielbiałem odpowiedź @whuber - zanim jeszcze miałem w głowie niejasne wyobrażenie o tym, jak można wizualizować kowariancję, ale te prostokątne wykresy są genialne.
Ponieważ jednak formuła kowariancji obejmuje średnią, a pierwotne pytanie PO stwierdziło, że „odbiorca” rozumie pojęcie średniej, pomyślałem, że będę miał problem z dostosowaniem wykresów prostokątnych @ Whubera do porównania każdego punktu danych z wartością oznacza xiy, ponieważ to bardziej reprezentuje to, co dzieje się w formule kowariancji. Myślałem, że faktycznie wygląda to dość intuicyjnie:
Niebieska kropka na środku każdego wykresu oznacza średnią x (x_mean) i średnią y (y_mean).
Prostokąty porównują wartości x - x_mean i y - y_mean dla każdego punktu danych.
Prostokąt jest zielony, gdy:
Prostokąt jest czerwony, gdy:
Kowariancja (i korelacja) może być zarówno silnie ujemna, jak i silnie dodatnia. Gdy wykres jest zdominowany przez jeden kolor bardziej niż drugi, oznacza to, że dane przeważnie mają spójny wzór.
Rzeczywista wartość kowariancji dla dwóch różnych zmiennych x i y, jest w zasadzie sumą całego zielonego obszaru minus cały czerwony obszar, a następnie podzielona przez całkowitą liczbę punktów danych - w rzeczywistości średnia wartość zieloności względem czerwieni na wykresie .
Jak to brzmi / wygląda?
źródło
Wariancja to stopień, w jakim losowa zmienna zmienna w stosunku do jej oczekiwanej wartości Ze względu na stochastyczny charakter leżącego u podstaw procesu zmienna losowa reprezentuje.
Kowariancja to stopień, w jakim dwie różne zmienne losowe zmieniają się względem siebie. Może się to zdarzyć, gdy zmienne losowe są sterowane przez ten sam proces bazowy lub jego pochodne. Oba procesy reprezentowane przez te zmienne losowe wpływają na siebie lub jest to ten sam proces, ale jedna ze zmiennych losowych pochodzi od drugiej.
źródło
Wyjaśniłbym po prostu korelację, która jest dość intuicyjna. Powiedziałbym: „Korelacja mierzy siłę zależności między dwiema zmiennymi X i Y. Korelacja wynosi między -1 a 1 i będzie bliska 1 w wartości bezwzględnej, gdy relacja jest silna. Kowariancja jest tylko korelacją pomnożoną przez odchylenia standardowe te dwie zmienne. Tak więc chociaż korelacja jest bezwymiarowa, kowariancja jest iloczynem jednostek dla zmiennej X i zmiennej Y.
źródło
Dwie zmienne, które miałyby wysoką dodatnią kowariancję (korelację), to liczba osób w pokoju i liczba palców znajdujących się w pokoju. (Wraz ze wzrostem liczby osób oczekujemy również wzrostu liczby palców).
Coś, co może mieć ujemną kowariancję (korelację), to wiek danej osoby i liczba mieszków włosowych na głowie. Lub liczba zits na twarzy osoby (w określonej grupie wiekowej) i ile dat ma w ciągu tygodnia. Oczekujemy, że osoby z większą liczbą lat będą miały mniej włosów, a osoby z trądzikiem będą miały mniej randek. Są one negatywnie skorelowane.
źródło