Dane dla niektórych rodzajów zmiennych są zwykle nietypowe, gdy są mierzone w poszczególnych populacjach (np. Poziomy depresji w populacji osób z dużym zaburzeniem depresyjnym). Biorąc pod uwagę, że Pearsona zakłada normalność, jak solidna jest statystyka testowa w warunkach nienormalności?
Mam szereg zmiennych, dla których chciałbym współczynników korelacji, ale skośność Z dla niektórych z tych zmiennych jest znacząca przy p <0,001 (i to dla względnie małej próbki). Próbowałem kilka transformacji, ale ulepszenia w dystrybucji są w najlepszym razie tylko marginalne.
Czy będę musiał trzymać się analiz nieparametrycznych? I nie tylko dla korelacji, ale także dla innych rodzajów analiz?
correlation
Archeopteryx
źródło
źródło
Odpowiedzi:
Krótka odpowiedź: bardzo mało odporna. Korelacja jest miarą zależności liniowej , a gdy jednej zmiennej nie można zapisać jako funkcji liniowej drugiej (i nadal ma podany rozkład krańcowy), nie można uzyskać idealnej (dodatniej lub ujemnej) korelacji. W rzeczywistości możliwe wartości korelacji można poważnie ograniczyć.
Problem polega na tym, że chociaż korelacja populacji zawsze zawiera się między a 1 , dokładny możliwy do uzyskania zasięg zależy w dużej mierze od rozkładów krańcowych. Szybki dowód i demonstracja:−1 1
Osiągalny zakres korelacji
Granice same w sobie są funkcjami dystrybucji. Niech ma jednolity rozkład. Górna granica to funkcja rozkładu a dolna granica to funkcja rozkładu .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U ( X, Y) = ( F-( U) , G-( U) ) ( F.-( - U) , G-( 1 - U) )
Teraz, korzystając z tego wariantu w formule kowariancji, widzimy, że uzyskujemy maksymalną i minimalną korelację, gdy jest równe odpowiednio i , tj. gdy jest odpowiednio (dodatnio lub ujemnie ) funkcja monotonicznej .H H + H - Y X
Przykłady
Oto kilka przykładów (bez dowodów):
Gdy i są zwykle rozmieszczone otrzymujemy maksimum i minimum, gdy ma zwykle dwuwymiarowe rozkładu normalnego, w którym jest zapisywane jako funkcja liniowa . Oznacza to, że otrzymujemy maksimum dla Tutaj granice są (oczywiście) i , niezależnie od tego, w jaki sposób i odchylenia i mają.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XX Y ( X, Y) Y X -11XY
Gdy i mają logarytmiczne rozkłady, dolna granica nigdy nie jest osiągalna, ponieważ oznaczałoby to, że można zapisać dla niektórych i dodatniej , a nigdy nie może być ujemna. Istnieją (nieco brzydkie) formuły dla dokładnych granic, ale pozwólcie, że podam specjalny przypadek. Gdy i mają standardowe rozkłady logarytmiczne (co oznacza, że gdy potęgują się, są one standardowe normalne), osiągalny zakres wynosi . (Ogólnie górna granica jest również ograniczona.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]X Y Y Y= a - b X za b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]
Gdy ma standardowy rozkład normalny, a ma standardowy rozkład logarytmiczny, granice korelacji wynosząX Y
Zauważ, że wszystkie granice dotyczą korelacji populacji . Korelacja próbki może łatwo wykraczać poza granice, szczególnie w przypadku małych próbek (szybki przykład: wielkość próbki 2).
Szacowanie granic korelacji
W rzeczywistości dość łatwo jest oszacować górną i dolną granicę korelacji, jeśli można przeprowadzić symulację z rozkładów krańcowych. W ostatnim przykładzie powyżej możemy użyć tego kodu R:
Jeśli mamy tylko rzeczywiste dane i nie znamy rozkładów krańcowych, nadal możemy zastosować powyższą metodę. Nie jest problemem, że zmienne są zależne, o ile pary obserwacji są zależne. Ale pomaga mieć wiele par obserwacji.
Przekształcanie danych
Oczywiście możliwe jest przekształcenie danych do (marginalnego) rozkładu normalnego, a następnie obliczenie korelacji na przekształconych danych. Problem polega na interpretacji. (I po co stosować rozkład normalny zamiast jakiegokolwiek innego, w którym może być funkcją liniową ?) W przypadku danych, które są dwuwymiarowe normalnie rozmieszczone, korelacja ma niezłą interpretację (jej kwadrat jest wariancją jednej zmiennej wyjaśnionej przez drugą ). W tym przypadku tak nie jest.Y X
To, co naprawdę tu robisz, to tworzenie nowej miary zależności, która nie zależy od rozkładów krańcowych; tzn. tworzysz miarę zależności opartą na kopule . Istnieje już kilka takich miar, ρ Spearmana i τ Kendalla są najbardziej znane. (Jeśli naprawdę interesują Cię koncepcje zależności, nie jest złym pomysłem przyjrzenie się kopulom.)
Podsumowując
Kilka końcowych przemyśleń i rad: samo spojrzenie na korelację ma jeden duży problem: sprawia, że przestajesz myśleć. Natomiast patrzenie na wykresy rozrzutu często powoduje, że zaczynasz myśleć. Moją główną radą byłoby zatem zbadanie wykresów rozrzutu i próba wyraźnego modelowania zależności.
To powiedziawszy, jeśli potrzebujesz prostej miary podobnej do korelacji, po prostu użyłbym ρ Spearmana (oraz powiązany przedział ufności i testy). Jego zasięg nie jest ograniczony. Ale bądź bardzo świadomy zależności niemonotonicznej. Artykuł w Wikipedii na temat korelacji zawiera kilka ciekawych wykresów ilustrujących potencjalne problemy.
źródło
Jak wyglądają rozkłady tych zmiennych (poza przekrzywieniem)? Jeśli jedyną nienormalnością jest skośność, to jakaś transformacja musi pomóc. Ale jeśli te zmienne mają dużo skupień, to żadna transformacja nie doprowadzi ich do normalności. Jeśli zmienna nie jest ciągła, to samo jest prawdą.
Jak solidna jest korelacja z naruszeniami? Spójrz na Kwartet Anscombe. Całkiem dobrze ilustruje kilka problemów.
Jeśli chodzi o inne rodzaje analiz, zależy to od analizy. Jeśli na przykład zmienne skośne są zmiennymi niezależnymi w regresji, może nie być w ogóle problemu - należy przyjrzeć się resztom.
źródło