Obecnie czytam założenia dotyczące korelacji Pearsona. Ważnym założeniem dla następującego testu t wydaje się, że obie zmienne pochodzą z rozkładów normalnych; jeśli nie, to zaleca się stosowanie alternatywnych środków, takich jak rho Spearmana. Korelacja Spearmana jest obliczana jak korelacja Pearsona, przy użyciu tylko rang X i Y zamiast samych X i Y, prawda?
Moje pytanie brzmi: jeśli zmienne wejściowe w korelacji Pearsona muszą być normalnie rozłożone, dlaczego obliczenie korelacji Spearmana jest ważne, mimo że zmienne wejściowe są szeregami? Moje szeregi z pewnością nie pochodzą z normalnych dystrybucji ...
Jedynym wyjaśnieniem, jakie do tej pory wymyśliłem, jest to, że znaczenie rho można przetestować inaczej niż w teście korelacji Pearsona (w sposób, który nie wymaga normalności), ale jak dotąd nie znalazłem żadnej formuły. Kiedy jednak uruchomiłem kilka przykładów, wartości p dla rho i dla testu t korelacji rang Pearsona zawsze pasowały, z wyjątkiem kilku ostatnich cyfr. Dla mnie nie wygląda to na zupełnie inną procedurę.
Wszelkie wyjaśnienia i pomysły mogą być mile widziane!
Cóż, wtedy podawałeś niewłaściwe przykłady!
Wektoryρ , w tym przypadku nie ma znaczenia, czy ostatnia cyfra
a
ib
mają dobre, ale dalekie od doskonałości liniowego (Pearson) korelacji. Mają jednak idealną korelację rang. Zobacz - do Spearmanab
to 8,1, 9, 90 lub 9000 (spróbuj!), ma znaczenie tylko, jeśli jest większa niż 8 . To właśnie robi różnicę w korelacji rang.I odwrotnie, podczas gdy
a
ib
mają doskonałą korelację rang, ich współczynnik korelacji Pearsona jest mniejszy niż 1. To pokazuje, że korelacja Pearsona nie odzwierciedla rang.Korelacja Pearsona odzwierciedla funkcję liniową, korelacja rang jest po prostu funkcją monotoniczną. W przypadku normalnych danych oba będą bardzo do siebie podobne i podejrzewam, że właśnie dlatego twoje dane nie pokazują dużych różnic między Spearmanem a Pearsonem.
Dla praktycznego przykładu rozważ następujące kwestie; chcesz sprawdzić, czy wyżsi ludzie ważą więcej. Tak, to głupie pytanie ... ale załóżmy, że o to ci zależy. Teraz masa nie skaluje się liniowo wraz z ciężarem, ponieważ wysocy ludzie są również szersi niż mali ludzie; więc ciężar nie jest liniową funkcją wzrostu. Ktoś, kto jest o 10% wyższy od ciebie, jest (średnio) o ponad 10% cięższy. Dlatego indeks ciała / masy wykorzystuje kostkę w mianowniku.
W związku z tym można założyć korelację liniową, aby niedokładnie odzwierciedlić relację wzrostu do masy. Natomiast korelacja rang jest w tym przypadku niewrażliwa na irytujące prawa fizyki i biologii; nie odzwierciedla to, czy ludzie rosną liniowo wraz ze wzrostem, po prostu odzwierciedla to, czy ludzie wyżsi (wyżsi rangi w jednej skali) są ciężsi (wyżsi rangi w drugiej skali).
Bardziej typowym przykładem mogą być rankingi kwestionariuszy podobne do Likerta, na przykład osoby oceniające coś jako „doskonałe / dobre / przyzwoite / mierne / złe / okropne”. „doskonały” jest tak samo daleki od „przyzwoitego”, jak „przyzwoity” jest od „złego” w skali , ale czy naprawdę możemy powiedzieć, że odległość między nimi jest taka sama? Korelacja liniowa niekoniecznie jest odpowiednia. Korelacja rang jest bardziej naturalna.
Aby bardziej bezpośrednio odpowiedzieć na twoje pytanie: nie, wartości p dla korelacji Pearsona i Spearmana nie mogą być obliczane inaczej . Wiele różni się w obu przypadkach, zarówno koncepcyjnie, jak i liczbowo, ale jeśli statystyka testowa jest równoważna, wartość p będzie równoważna.
Na pytanie o założeniu normalności w korelacji Pearsona, zobacz to .
Mówiąc bardziej ogólnie, inne osoby opracowały znacznie lepiej niż mogłem na temat korelacji parametrycznych vs. nieparametrycznych (patrz także tutaj ) i co to oznacza w odniesieniu do założeń dystrybucyjnych.
źródło
cor.test(x, y, method = "spearman")
zcor.test(rank(x), rank(y), method = "pearson")
. Szacunki te będą identyczne bez względu na wybrane dane. Mimo wszystko dziękuję! :)