Mam kilka powiązanych zestawów danych. Korelacje Pearsona między ich parami są zwykle zdecydowanie większe niż korelacje włóczni. Sugeruje to, że jakakolwiek korelacja jest liniowa, ale można się spodziewać, że nawet jeśli pearson i włócznik byli tacy sami. Co to znaczy, gdy istnieje wyraźna luka między korelacją Pearsona i Spearmana, a Pearson jest większy? Wydaje się, że jest to spójna funkcja w moich zestawach danych.
correlation
spearman-rho
pearson-r
John Robertson
źródło
źródło
Odpowiedzi:
Korelacja Spearmana to po prostu korelacja Pearsona, wykorzystująca rangi (statystyki zamówień) zamiast rzeczywistych wartości liczbowych. Odpowiedź na twoje pytanie brzmi: nie mierzą tego samego. Pearson: trend liniowy, Spearman: trend monotoniczny. To, że korelacja Pearsona jest wyższa, oznacza tylko, że korelacja liniowa jest większa niż korelacja rangowa. Jest to prawdopodobnie spowodowane wpływowymi obserwacjami w ogonach rozkładu, które mają duży wpływ w stosunku do ich uporządkowanych wartości. Testy asocjacji z wykorzystaniem korelacji Pearsona mają większą moc, gdy liniowość utrzymuje się w danych.
źródło
Korelacja Pearsona zakłada kilka założeń, aby była dokładna: 1) Każda zmienna jest normalnie rozkładana; 2) Homoscedastyczność, wariancja każdej zmiennej pozostaje stała; oraz 3) Liniowość, co oznacza, że wykres rozproszenia przedstawiający związek pokazuje punkty danych skupione symetrycznie wokół linii regresji.
Korelacja Spearmana jest nieparametryczną alternatywą dla Pearsona opartą na randze obserwacji. Korelacja Spearmana pozwala rozluźnić wszystkie trzy założenia dotyczące zestawu danych i uzyskać korelacje, które są nadal dość dokładne.
Dane sugerują, że prawdopodobnie istotnie łamie ono jedno lub więcej z wymienionych założeń, tak że dwie korelacje różnią się znacznie.
Biorąc pod uwagę dużą różnicę między tymi dwiema korelacjami, powinieneś sprawdzić, czy zmienne twojego zestawu danych są normalnie rozmieszczone, homoscedastyczne i liniowe w obrębie wykresu punktowego.
Powyższe badanie ułatwi podjęcie decyzji, czy współczynnik korelacji Spearmana czy Pearsona jest bardziej reprezentatywny.
źródło