Czy ktoś może mi pomóc zrozumieć formułę korelacji Pearsona? próbka = średnia z produktów standardowych punktów zmiennych i .Y
Rozumiem, dlaczego muszą znormalizować i , ale jak zrozumieć produkty obu wyników Z? Y
Ta formuła jest również nazywana „współczynnikiem korelacji produktu z momentem”, ale jakie jest uzasadnienie działania produktu? Nie jestem pewien, czy moje pytanie było jasne, ale chcę po prostu zapamiętać formułę intuicyjnie.
correlation
descriptive-statistics
pearson-r
Aaron Lu
źródło
źródło
Odpowiedzi:
W komentarzach zasugerowano 15 sposobów zrozumienia współczynnika korelacji:
13 sposobów omówionych w artykule Rodgersa i Nicewandra (The American Statistician, luty 1988)
Funkcja surowych wyników i środków,
Standaryzowana kowariancja,
gdzie jest próbka kowariancji i s X i y Y są przykładowymi odchyleń standardowych.sXY sX sY
Znormalizowane nachylenie linii regresji,
gdzie i b X ⋅ Y są nachyleniami linii regresji.bY⋅X bX⋅Y
Średnia geometryczna dwóch nachyleń regresji,
Pierwiastek kwadratowy ze stosunku dwóch wariancji (uwzględniony odsetek proporcji),
Średni efekt krzyżowy znormalizowanych zmiennych,
Funkcja kąta między dwiema znormalizowanymi liniami regresji. Dwie linie regresji ( względem X iY X vs. Y ) są symetryczne względem przekątnej. Niech kąt między dwiema liniami będzie β . NastępnieX Y β
Funkcja kąta między dwoma wektorami zmiennymi,
Przeskalowana wariancja różnicy między znormalizowanymi wynikami. LettingzY−zX będzie różnicą między znormalizowanymi zmiennymi i Y dla każdej obserwacji,X Y
Oszacowano na podstawie reguły „balon”,
gdzie jest pionowym zakresem całego X - YH X−Y wykresu rozrzutu a jest zakresem przez „środek rozkładu na osi X ” (to znaczy przez punkt środkowy ).h X
W związku z dwuwymiarowymi elipsami izokoncentracji
gdzie iD są odpowiednio długością osi głównej i pomocniczej. r równa się również nachyleniu stycznej linii izokonturu (we współrzędnych znormalizowanych) w punkcie, w którym kontur przecina oś pionową.d r
Funkcja statystyki testu z zaprojektowanych eksperymentów,
gdzie jest statystyką testową w t niezależnym teście próbnym dla zaprojektowanego eksperymentu z dwoma warunkami leczenia (oznaczonymi jako X = 0 , 1 ), a n jest łączną całkowitą liczbą obserwacji w dwóch grupach leczenia.t t X=0,1 n
Stosunek dwóch środków. Załóżmy dwuwymiarową normalność i standaryzujemy zmienne. Wybierz jakąś dowolnie dużą wartość z X . NastępnieXc X
(Większość z nich jest dosłowna, z bardzo niewielkimi zmianami w niektórych zapisach).
Niektóre inne metody (być może oryginalne dla tej witryny) są
Przez kręgi. jest nachyleniem linii regresji we współrzędnych znormalizowanych. Linię tę można scharakteryzować na różne sposoby, w tym geometryczne, na przykład minimalizując całkowitą powierzchnię okręgów narysowanych między linią a punktami danych na wykresie rozrzutu.r
Kolorując prostokąty. Kowariancję można ocenić, kolorując prostokąty na wykresie rozrzutu (tzn. Sumując podpisane obszary prostokątów). Gdy wykres rozrzutu jest znormalizowany, ilość netto koloru - całkowity błąd podpisany - wynosi .r
źródło