Często dostaję to pytanie w mojej pracy konsultingowej, że myślałem, że opublikuję je tutaj. Mam odpowiedź, która jest zamieszczona poniżej, ale chciałem usłyszeć, co mają do powiedzenia inni.
Pytanie: Jeśli masz dwie zmienne, które nie są normalnie rozmieszczone, czy powinieneś użyć rho Spearmana do korelacji?
correlation
normality-assumption
pearson-r
spearman-rho
Jeromy Anglim
źródło
źródło
Odpowiedzi:
Korelacja Pearsona jest miarą liniowej zależności między dwiema ciągłymi zmiennymi losowymi. Nie zakłada normalności, chociaż zakłada skończone wariancje i skończoną kowariancję. Gdy zmienne są dwuwymiarowe normalne, korelacja Pearsona zapewnia pełny opis powiązania.
Korelacja Spearmana dotyczy rang, a zatem stanowi miarę monotonicznej zależności między dwiema ciągłymi zmiennymi losowymi. Jest także przydatny w przypadku danych porządkowych i jest odporny na wartości odstające (w przeciwieństwie do korelacji Pearsona).
Rozkład obu współczynników korelacji będzie zależeć od rozkładu leżącego u podstaw, chociaż oba są asymptotycznie normalne z powodu centralnego twierdzenia granicznego.
źródło
Nie zapomnij o tau Kendalla ! Roger Newson opowiadał się za wyższością τ a Kendalla nad korelacją Spearmana r S jako miarą korelacji opartą na rangach w artykule, którego pełny tekst jest teraz bezpłatnie dostępny online:
Newson R. Parametry kryjące się za „nieparametrycznymi” statystykami: tau Kendalla, D Somersa i różnice mediany . Stata Journal 2002; 2 (1): 45–64.
On odwołuje (na P47) Kendall & Gibbons (1990) jako twierdząc, że”... przedziały ufności dla Spearmana r S są mniej pewne i mniej interpretacji niż przedziały ufności dla Kendall τ -parameters, ale próbka Spearmana R S jest o wiele łatwiej obliczone bez komputera ”(co oczywiście nie ma już większego znaczenia). Niestety nie mam łatwego dostępu do kopii ich książki:
Kendall, MG i JD Gibbons. 1990. Metody korelacji rang . Wydanie 5 Londyn: Griffin.
źródło
Z perspektywy stosowanej bardziej martwię się wyborem podejścia, które podsumowuje związek między dwiema zmiennymi w sposób zgodny z moim pytaniem badawczym. Myślę, że określenie metody uzyskiwania dokładnych błędów standardowych i wartości p to pytanie, które powinno zająć drugie miejsce. Nawet jeśli zdecydujesz się nie polegać na asymptotyce, zawsze istnieje możliwość załadowania lub zmiany założeń dystrybucyjnych.
Zasadniczo wolę korelację Pearsona, ponieważ (a) ogólnie bardziej odpowiada ona moim teoretycznym zainteresowaniom; (b) umożliwia bardziej bezpośrednią porównywalność ustaleń między badaniami, ponieważ większość badań w mojej dziedzinie wykazuje korelację Pearsona; oraz (c) w wielu ustawieniach istnieje minimalna różnica między współczynnikami korelacji Pearsona i Spearmana.
Są jednak sytuacje, w których uważam, że korelacja Pearsona z surowymi zmiennymi jest myląca.
W obu powyższych przypadkach radziłbym badaczom albo rozważyć strategie korekty (np. Transformacje, usunięcie / dopasowanie wartości odstających) przed zastosowaniem korelacji Pearsona lub użyć rho Spearmana.
źródło
Zaktualizowano
Pytanie wymaga wyboru między metodą Pearsona a Spearmana, gdy kwestionowana jest normalność . Ograniczając się do tej obawy, uważam, że następujący artykuł powinien informować o każdej decyzji:
Jest całkiem miły i zapewnia przegląd znacznej literatury obejmującej dziesięciolecia na ten temat - zaczynając od „okaleczonych i zniekształconych powierzchni” Pearsona i solidności dystrybucji . Przynajmniej część sprzecznej natury „faktów” polega na tym, że znaczna część tej pracy została wykonana przed nadejściem mocy obliczeniowej - co skomplikowało rzeczy, ponieważ trzeba wziąć pod uwagę rodzaj nienormalności i trudno ją zbadać bez symulacji.r
Analiza Kowalskiego stwierdza, że rozkład nie jest solidny w obecności nienormalności i zaleca alternatywne procedury. Cały artykuł jest dość pouczający i zalecany do przeczytania, ale przejdź do bardzo krótkiego podsumowania na końcu artykułu.r
Jeśli zostanie poproszony o wybranie jednego ze Spearmana i Pearsona w przypadku naruszenia normalności, warto zalecić alternatywę bez dystrybucji, tj. Metodę Spearmana.
Wcześniej ..
Korelacja Spearmana jest miarą korelacji opartą na rangach; jest nieparametryczny i nie opiera się na założeniu normalności.
Rozkład próbkowania dla korelacji Pearsona zakłada normalność; w szczególności oznacza to, że chociaż można to obliczyć, wnioski oparte na testach istotności mogą nie być trafne.
Jak zauważa Rob w komentarzach, przy dużej próbce nie stanowi to problemu. Jednak w przypadku małych próbek, w których naruszana jest normalność, należy preferować korelację Spearmana.
Zaktualizuj Mulling nad komentarzami i odpowiedziami, wydaje mi się, że sprowadza się to do zwykłej debaty nieparametrycznej kontra testy parametryczne. Duża część literatury, np. W biostatystyce, nie dotyczy dużych próbek. Zasadniczo nie jestem kawalerska polegając na asymptotyce. Być może jest to uzasadnione w tym przypadku, ale nie jest to dla mnie oczywiste.
źródło