Jak silny jest współczynnik korelacji Pearsona z naruszeniami normalności?

20

Dane dla niektórych rodzajów zmiennych są zwykle nietypowe, gdy są mierzone w poszczególnych populacjach (np. Poziomy depresji w populacji osób z dużym zaburzeniem depresyjnym). Biorąc pod uwagę, że Pearsona zakłada normalność, jak solidna jest statystyka testowa w warunkach nienormalności?

Mam szereg zmiennych, dla których chciałbym współczynników korelacji, ale skośność Z dla niektórych z tych zmiennych jest znacząca przy p <0,001 (i to dla względnie małej próbki). Próbowałem kilka transformacji, ale ulepszenia w dystrybucji są w najlepszym razie tylko marginalne.

Czy będę musiał trzymać się analiz nieparametrycznych? I nie tylko dla korelacji, ale także dla innych rodzajów analiz?

Archeopteryx
źródło
Zaraz, współczynnik korelacji Pearsona zakłada normalność? Nie sądzę, że tak, i używałem go do niestandardowych danych. Po prostu nie jest odporny na niektóre rzeczy, które zdarzają się częściej w niektórych niestandardowych sytuacjach, ale jest wiele niestandardowych sytuacji, w których nie widzę problemu z użyciem współczynnika korelacji Pearsona.
Douglas Zare
1
To, że korelacja Pearsona zakłada normalność, jest tym, co twierdzi wiele tekstów statystyk. Słyszałem gdzie indziej, że normalność jest niepotrzebnym założeniem dla r Pearsona. Kiedy przeprowadzam analizy, zarówno Pearsona, jak i Spearmana dają względnie podobne wyniki.
Archeopteryx
Współczynnik korelacji rang Spearmana jest współczynnikiem korelacji Pearsona stosowanym do nietypowych rankingów. Nadal nie wiem, w jakim sensie według ciebie Pearson wymaga normalności. Być może możesz powiedzieć kilka dodatkowych rzeczy na wypadek, gdybyś używał go w normalnym rozkładzie wielu zmiennych.
Douglas Zare
Używam go tylko do prostych korelacji dwuwymiarowych. Nie jestem pewien, dlaczego twierdzi się, że wymagana jest normalność. Teksty statystyk, które czytałem, zawsze wymieniają normalność jako założenie korelacji Pearsona i radzą używać Spearmana w warunkach, w których zachodzi nienormalność.
Archeopteryx

Odpowiedzi:

20

Krótka odpowiedź: bardzo mało odporna. Korelacja jest miarą zależności liniowej , a gdy jednej zmiennej nie można zapisać jako funkcji liniowej drugiej (i nadal ma podany rozkład krańcowy), nie można uzyskać idealnej (dodatniej lub ujemnej) korelacji. W rzeczywistości możliwe wartości korelacji można poważnie ograniczyć.

Problem polega na tym, że chociaż korelacja populacji zawsze zawiera się między a 1 , dokładny możliwy do uzyskania zasięg zależy w dużej mierze od rozkładów krańcowych. Szybki dowód i demonstracja:-11

Osiągalny zakres korelacji

(X,Y)H.fasolH.

H.-(x,y)H.(x,y)H.+(x,y),
H.-(x,y)=max(fa(x)+sol(y)-1,0)H.+(x,y)=min(fa(x),sol(y)).

Granice same w sobie są funkcjami dystrybucji. Niech ma jednolity rozkład. Górna granica to funkcja rozkładu a dolna granica to funkcja rozkładu .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U(X,Y)=(fa-(U),sol-(U))(fa-(-U),sol-(1-U))

Teraz, korzystając z tego wariantu w formule kowariancji, widzimy, że uzyskujemy maksymalną i minimalną korelację, gdy jest równe odpowiednio i , tj. gdy jest odpowiednio (dodatnio lub ujemnie ) funkcja monotonicznej .H H + H - Y X

Cov(X,Y)=H.(x,y)-fa(x)sol(y)rexrey,
H.H.+H.-YX

Przykłady

Oto kilka przykładów (bez dowodów):

  1. Gdy i są zwykle rozmieszczone otrzymujemy maksimum i minimum, gdy ma zwykle dwuwymiarowe rozkładu normalnego, w którym jest zapisywane jako funkcja liniowa . Oznacza to, że otrzymujemy maksimum dla Tutaj granice są (oczywiście) i , niezależnie od tego, w jaki sposób i odchylenia i mają.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY(X,Y)YX-11XY

    Y=μY+σYX-μXσX.
    -11XY
  2. Gdy i mają logarytmiczne rozkłady, dolna granica nigdy nie jest osiągalna, ponieważ oznaczałoby to, że można zapisać dla niektórych i dodatniej , a nigdy nie może być ujemna. Istnieją (nieco brzydkie) formuły dla dokładnych granic, ale pozwólcie, że podam specjalny przypadek. Gdy i mają standardowe rozkłady logarytmiczne (co oznacza, że ​​gdy potęgują się, są one standardowe normalne), osiągalny zakres wynosi . (Ogólnie górna granica jest również ograniczona.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] [ - 0,37 , 1 ]XYYY=za-bXzabYXY[-1/mi,1][-0,37,1]

  3. Gdy ma standardowy rozkład normalny, a ma standardowy rozkład logarytmiczny, granice korelacji wynoszą XY

    ±1mi-10,76.

Zauważ, że wszystkie granice dotyczą korelacji populacji . Korelacja próbki może łatwo wykraczać poza granice, szczególnie w przypadku małych próbek (szybki przykład: wielkość próbki 2).

Szacowanie granic korelacji

W rzeczywistości dość łatwo jest oszacować górną i dolną granicę korelacji, jeśli można przeprowadzić symulację z rozkładów krańcowych. W ostatnim przykładzie powyżej możemy użyć tego kodu R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Jeśli mamy tylko rzeczywiste dane i nie znamy rozkładów krańcowych, nadal możemy zastosować powyższą metodę. Nie jest problemem, że zmienne są zależne, o ile pary obserwacji są zależne. Ale pomaga mieć wiele par obserwacji.

Przekształcanie danych

Oczywiście możliwe jest przekształcenie danych do (marginalnego) rozkładu normalnego, a następnie obliczenie korelacji na przekształconych danych. Problem polega na interpretacji. (I po co stosować rozkład normalny zamiast jakiegokolwiek innego, w którym  może być funkcją liniową ?) W przypadku danych, które dwuwymiarowe normalnie rozmieszczone, korelacja ma niezłą interpretację (jej kwadrat jest wariancją jednej zmiennej wyjaśnionej przez drugą ). W tym przypadku tak nie jest.YX

To, co naprawdę tu robisz, to tworzenie nowej miary zależności, która nie zależy od rozkładów krańcowych; tzn. tworzysz miarę zależności opartą na kopule . Istnieje już kilka takich miar, ρ Spearmana  i τ Kendalla  są najbardziej znane. (Jeśli naprawdę interesują Cię koncepcje zależności, nie jest złym pomysłem przyjrzenie się kopulom.)

Podsumowując

Kilka końcowych przemyśleń i rad: samo spojrzenie na korelację ma jeden duży problem: sprawia, że ​​przestajesz myśleć. Natomiast patrzenie na wykresy rozrzutu często powoduje, że zaczynasz myśleć. Moją główną radą byłoby zatem zbadanie wykresów rozrzutu i próba wyraźnego modelowania zależności.

To powiedziawszy, jeśli potrzebujesz prostej miary podobnej do korelacji, po prostu użyłbym ρ Spearmana  (oraz powiązany przedział ufności i testy). Jego zasięg nie jest ograniczony. Ale bądź bardzo świadomy zależności niemonotonicznej. Artykuł w Wikipedii na temat korelacji zawiera kilka ciekawych wykresów ilustrujących potencjalne problemy.

Karl Ove Hufthammer
źródło
1
+1 Ten bardzo miły wkład wyraźnie rozwiązuje kilka powtarzających się problemów związanych z korelacjami. Szczególnie doceniam uwagi w pierwszym akapicie końcowym dotyczące zatrzymania / rozpoczęcia myślenia.
whuber
Czy niestabilność pozostałaby nawet asymptotycznie? Jeśli tak, to czy wiki nie ma racji, mówiąc, że „[Rozkład t Studenta dla prostej transformacji r] ma również wartość przybliżoną, nawet jeśli zaobserwowane wartości są nienormalne, pod warunkiem, że wielkości próbek nie są bardzo małe”?
maks.
5

Jak wyglądają rozkłady tych zmiennych (poza przekrzywieniem)? Jeśli jedyną nienormalnością jest skośność, to jakaś transformacja musi pomóc. Ale jeśli te zmienne mają dużo skupień, to żadna transformacja nie doprowadzi ich do normalności. Jeśli zmienna nie jest ciągła, to samo jest prawdą.

Jak solidna jest korelacja z naruszeniami? Spójrz na Kwartet Anscombe. Całkiem dobrze ilustruje kilka problemów.

Jeśli chodzi o inne rodzaje analiz, zależy to od analizy. Jeśli na przykład zmienne skośne są zmiennymi niezależnymi w regresji, może nie być w ogóle problemu - należy przyjrzeć się resztom.

Peter Flom - Przywróć Monikę
źródło
1
Niektóre zmienne mają również problemy z kurtozą, ale skośność jest największym problemem. Próbowałem przekształceń pierwiastków kwadratowych i logów na zmiennych problemowych, ale nie poprawiły się one znacznie. W rzeczywistości rozkłady wydają się wyglądać prawie dokładnie tak samo, ale z większym zestawem wyników.
Archeopteryx
1
To wydaje się bardzo dziwne. Czy możesz podać średnią, medianę, skośność, kurtozę danej zmiennej? A może (jeszcze lepiej) wykres gęstości?
Peter Flom - Przywróć Monikę
6
Niezależnie od tego, czy rozkład (X, Y) jest dwuwymiarowy normalny, czy nie, korelacja Pearsona jest miarą stopnia liniowości. Rozkład prawdopodobieństwa dla oszacowania próby będzie zależeć od normalności.
Michael R. Chernick,
3
Te zmienne nie są bardzo pochylone. Możesz je zostawić bez zmian.
Peter Flom - Przywróć Monikę
3
Nie martw się tutaj o znaczenie. Zazwyczaj pochylenie i kurtoza o wartości <-2 lub> 2 są uważane za być może wymagające transformacji. Jeszcze lepiej jest spojrzeć na wykresy, np. Wykres normalny kwantylu i wykres gęstości z jądrem, aby zobaczyć, co się dzieje.
Peter Flom - Przywróć Monikę