Co to oznacza, gdy korelacja Spearmana jest o określoną kwotę mniejsza niż Pearson?

12

Mam kilka powiązanych zestawów danych. Korelacje Pearsona między ich parami są zwykle zdecydowanie większe niż korelacje włóczni. Sugeruje to, że jakakolwiek korelacja jest liniowa, ale można się spodziewać, że nawet jeśli pearson i włócznik byli tacy sami. Co to znaczy, gdy istnieje wyraźna luka między korelacją Pearsona i Spearmana, a Pearson jest większy? Wydaje się, że jest to spójna funkcja w moich zestawach danych.

John Robertson
źródło
Bardzo podobne pytanie ze świetną odpowiedzią tutaj
Colin T Bowers

Odpowiedzi:

14

Korelacja Spearmana to po prostu korelacja Pearsona, wykorzystująca rangi (statystyki zamówień) zamiast rzeczywistych wartości liczbowych. Odpowiedź na twoje pytanie brzmi: nie mierzą tego samego. Pearson: trend liniowy, Spearman: trend monotoniczny. To, że korelacja Pearsona jest wyższa, oznacza tylko, że korelacja liniowa jest większa niż korelacja rangowa. Jest to prawdopodobnie spowodowane wpływowymi obserwacjami w ogonach rozkładu, które mają duży wpływ w stosunku do ich uporządkowanych wartości. Testy asocjacji z wykorzystaniem korelacji Pearsona mają większą moc, gdy liniowość utrzymuje się w danych.

AdamO
źródło
1
Wiedziałem, że włócznik był tylko gruszkami w szeregach. Muszę sprawdzić, czy mogą istnieć inne drogi, które również mogą to powodować, ale wpływowe obserwacje ogonów, które są bardziej liniowo skorelowane niż większość danych, ale które tracą wpływ po zastąpieniu ich rankingami, z pewnością spowodowałyby to, kim jestem widzenie.
John Robertson,
0

Korelacja Pearsona zakłada kilka założeń, aby była dokładna: 1) Każda zmienna jest normalnie rozkładana; 2) Homoscedastyczność, wariancja każdej zmiennej pozostaje stała; oraz 3) Liniowość, co oznacza, że ​​wykres rozproszenia przedstawiający związek pokazuje punkty danych skupione symetrycznie wokół linii regresji.

Korelacja Spearmana jest nieparametryczną alternatywą dla Pearsona opartą na randze obserwacji. Korelacja Spearmana pozwala rozluźnić wszystkie trzy założenia dotyczące zestawu danych i uzyskać korelacje, które są nadal dość dokładne.

Dane sugerują, że prawdopodobnie istotnie łamie ono jedno lub więcej z wymienionych założeń, tak że dwie korelacje różnią się znacznie.

Biorąc pod uwagę dużą różnicę między tymi dwiema korelacjami, powinieneś sprawdzić, czy zmienne twojego zestawu danych są normalnie rozmieszczone, homoscedastyczne i liniowe w obrębie wykresu punktowego.

Powyższe badanie ułatwi podjęcie decyzji, czy współczynnik korelacji Spearmana czy Pearsona jest bardziej reprezentatywny.

Sympa
źródło
2
Prawdopodobnie myślisz o powiązanym teście wnioskowania za pomocą t-dystrybucja, a nie miara opisowa. Jednak ten test jest zwykle opisywany jako mający inne założenia niż te, które podałeś. Np. Dwuwymiarowa normalność, silniejsze założenie niż indywidualnie normalne rozkłady. Podaj odniesienia do swoich wyciągów.
karakal
4
Błędny. Wnioskowanie na temat korelacji Pearsona nie wymaga podtrzymania żadnego z tych założeń. Można mieć krzywoliniowy związek z heteroscedastycznymi, nienormalnymi danymi, a test korelacji Pearsona (który jest równoważny wnioskowaniu w modelu regresji liniowej) jest wykorzystywany do wykrycia trendu pierwszego rzędu. Nadal istnieje interpretacja korelacji Pearsona jako siły trendu pierwszego rzędu. Istnieje kilka okoliczności, w których trend pierwszego rzędu mierzony za pomocą korelacji Pearsona nie jest odpowiedni do analizy.
AdamO,