Co może powodować duże różnice we współczynniku korelacji między korelacją Pearsona i Spearmana dla danego zestawu danych?

22

Współczynnik Pearsona między dwiema zmiennymi jest dość wysoki (r = 0,65). Ale kiedy oceniam wartości zmiennych i przeprowadzam korelację Spearmana, wartość współczynnika jest znacznie niższa (r = 0,30).

  • Jaka jest tego interpretacja?
user3671
źródło
5
Na ogół dobrym pomysłem jest pokazanie wykresu rozrzutu danych przed interpretacją współczynnika korelacji.
chl
Jaki jest twój rozmiar próbki?
Jeromy Anglim,

Odpowiedzi:

37

Dlaczego duża różnica

  • Jeśli twoje dane są zwykle dystrybuowane lub równomiernie dystrybuowane, uważam, że korelacja Spearmana i Pearsona powinna być dość podobna.

  • Jeśli dają one bardzo różne wyniki, jak w twoim przypadku (.65 w porównaniu z .30), domyślam się, że wypaczyłeś dane lub wartości odstające i że wartości odstające powodują, że korelacja Pearsona jest większa niż korelacja Spearmana. To znaczy, bardzo wysokie wartości na X mogą współistnieć z bardzo wysokimi wartościami na Y.

  • @chl jest na miejscu. Pierwszym krokiem powinno być spojrzenie na wykres rozproszenia.
  • Ogólnie rzecz biorąc, tak duża różnica między Pearsonem i Spearmanem to sugerująca czerwona flaga
    • korelacja Pearsona może nie być przydatnym podsumowaniem powiązania między dwiema zmiennymi lub
    • powinieneś przekształcić jedną lub obie zmienne przed użyciem korelacji Pearsona, lub
    • powinieneś usunąć lub dostosować wartości odstające przed użyciem korelacji Pearsona.

Powiązane pytania

Zobacz także poprzednie pytania dotyczące różnic między korelacją Spearmana i Pearsona:

Prosty przykład R.

Poniżej przedstawiono prostą symulację tego, jak może to nastąpić. Zauważ, że poniższy przypadek dotyczy pojedynczej wartości odstającej, ale możesz uzyskać podobne efekty z wieloma wartościami odstającymi lub przekrzywionymi danymi.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Co daje ten wynik

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

Analiza korelacji pokazuje, że bez wartości odstających Spearman i Pearson są dość podobne, a przy skrajnej wartości odstającej korelacja jest zupełnie inna.

Poniższy wykres pokazuje, jak traktowanie danych jako rang eliminuje ekstremalny wpływ wartości odstającej, przez co Spearman jest podobny zarówno z wartością odstającą, jak i bez niej, podczas gdy Pearson jest zupełnie inny, gdy dodaje się wartość odstającą. To podkreśla, dlaczego Spearman często nazywany jest solidnym.

wprowadź opis zdjęcia tutaj

Jeromy Anglim
źródło