Znaczenie średniego współczynnika korelacji

11

Zastrzeżenie: jeśli uznasz to pytanie za zbyt podobne do innego, cieszę się, że zostało połączone. Jednak nigdzie indziej nie znalazłem satysfakcjonującej odpowiedzi (i nie mam jeszcze „reputacji” do komentowania lub głosowania), więc pomyślałem, że najlepiej byłoby zadać sobie nowe pytanie.

Moje pytanie brzmi: Dla każdego z 12 badanych ludzi obliczyłem współczynnik korelacji (rho Spearmana) między 6 poziomami zmiennej niezależnej X, a odpowiednimi obserwacjami zmiennej zależnej Y. (Uwaga: poziomy X nie są równe między podmiotami.) Mój hipoteza zerowa jest taka, że ​​w populacji ogólnej korelacja ta wynosi zero. Tę hipotezę przetestowałem na dwa sposoby:

  1. Za pomocą testu t dla jednej próby współczynników korelacji uzyskanych od moich 12 badanych.

  2. Przez wyśrodkowanie moich poziomów X i obserwacji Y w taki sposób, że dla każdego uczestnika średnia (X) = 0 i średnia (Y) = 0, a następnie obliczenie korelacji na podstawie danych zagregowanych (72 poziomy X i 72 obserwacje Y) .

Teraz, czytając o pracy ze współczynnikami korelacji (tutaj i gdzie indziej) zacząłem wątpić, czy pierwsze podejście jest poprawne. W szczególności widziałem następujące równanie pojawiające się w kilku miejscach, przedstawione (najwyraźniej) jako test t dla średnich współczynników korelacji:

t=rSEr=n21r2

gdzie byłby średnim współczynnikiem korelacji (i załóżmy, że uzyskaliśmy to przy użyciu transformacji Fishera dla współczynników na podmiot), a liczby obserwacji. Intuicyjnie wydaje mi się to niewłaściwe, ponieważ nie obejmuje żadnej miary zmienności między podmiotami. Innymi słowy, gdybym miał 3 współczynniki korelacji, uzyskałbym tę samą statystykę t, niezależnie od tego, czy byłyby to [0,1, 0,5, 0,9] lub [0,45 0,5 0,55], czy dowolny zakres wartości o tej samej średniej (i )rnn=3

Podejrzewam zatem, że powyższe równanie w rzeczywistości nie ma zastosowania podczas testowania istotności średniej współczynników korelacji, ale podczas testowania istotności pojedynczego współczynnika korelacji na podstawie obserwacji 2 zmiennych.n

Czy ktoś może tutaj potwierdzić tę intuicję lub wyjaśnić, dlaczego jest ona błędna? Ponadto, jeśli ta formuła nie dotyczy mojego przypadku, to czy ktoś wie / właściwe podejście? A może mój własny test numer 2 jest już ważny? Każda pomoc jest mile widziana (w tym wskazówki do poprzednich odpowiedzi, które mogłem przeoczyć lub źle zinterpretować).

Ruben van Bergen
źródło
2
Wartość Pearsona jest niewrażliwa na transformacje centrowania i skalowania, więc myślę, że centrowanie nie ma znaczenia dla twojego pytania. Na przykład cor ( X , Y ) = cor ( X , Y - ˉ Y ) = cor ( X , Y + 1000 ) = cor ( X , Y × 1000 ). rX,YX,YY¯X,Y+1000X,Y×1000
Alexis,
Zgadzam się z Tobą. Dlatego zinterpretowałem centrowanie jako „centrowanie każdej zmiennej osobno przed złożeniem ich razem”.
Federico Tedeschi,
1
@FedericoTedeschi Czy „nie centruje każdej zmiennej osobno przed złożeniem ich razem”, co oznacza ? YY¯
Alexis
@Alexis Odpowiedziałem ci na dole mojej odpowiedzi (napisanie jej w komentarzu byłoby zbyt długie, a także musiałbym ją poprawić kilka razy z powodu problemu WYSINWYG).
Federico Tedeschi

Odpowiedzi:

2

Lepszym podejściem do analizy tych danych jest zastosowanie (czyli modelu efektów mieszanych, modelu hierarchicznego) z subjectefektem losowym (przechwytywanie losowe lub przechwytywanie losowe + nachylenie). Podsumowując inną odpowiedź :

Jest to zasadniczo regresja, która modeluje pojedynczy ogólny związek, jednocześnie pozwalając, aby związek ten różnił się między grupami (ludźmi). Takie podejście korzysta z częściowego gromadzenia danych i bardziej efektywnie wykorzystuje dane.

mkt - Przywróć Monikę
źródło
-1

Zakładam, że zmiennych ( 6 X i 6 Y ) jest takich samych dla wszystkich osób (w rzeczywistości nie jestem pewien, czy rozumiem, co masz na myśli mówiąc, że poziomy nie są równe między podmiotami: Mam nadzieję, że jesteś odnoszące się do niezależności między zakresami zmiennych, a nie o tym, które zmienne są mierzone dla każdej osoby). Tak, pokazana formuła odnosi się do współczynnika korelacji między dwiema zmiennymi.126 X6 Y

W punkcie 2 mówisz o normalizacji: Myślę, że miałoby to sens, gdybyś zrobił to dla każdej z zmiennych osobno. Jednak mimo to problem z tym podejściem polega na tym, że nie kontroluje on zależności wewnątrz jednostki.62

Uważam, że twoje podejście 1 również nie jest poprawne, ponieważ byłby to test wśród zmiennych o rozkładzie tz zaledwie 10 stopniami swobody, więc nie sądzę, abyś mógł zastosować Centralne Twierdzenie Graniczne w tym przypadku.6t10

Być może, przy większych ilościach, można użyć efektu losowego podejście, pozwalające na losowej stoku i jednocześnie testując zarówno null średniego współczynnika (od na Y í ) i nieistnienia losowym współczynnikiem. Uważam jednak, że 6 zmiennych i 12 obserwacji to za mało, aby to zrobić.XiYi

Sugeruję, abyś postrzegał to jako test na 6 wartościach (staje się 12, jeśli weźmiesz również pod uwagę wartości poniżej przekątnej) macierzy korelacji wśród zmiennych (zarówno X, jak i Y ), tj. Tych na przekątnej drugiej (i równoważnie trzeciej) ćwiartki. W związku z tym wykonałbym test stosunku prawdopodobieństwa między modelem ograniczonym i nieograniczonym.12XY

@Alexis Rozumiem, że centrowanie , Y 1 , , Y 6 , zastępując je X 1 = X 1 - ¯ X 1 , , X 6 = X 6 - ¯ X 6 , Y 1 = Y 1 - ¯ Y 1 , , Y X1,,X6Y1,,Y6 sensu (chyba, że to także sensowne, aby podzielić je przez ichSe„e). W ten sposób zmienneXiY(utworzone przez uwzględnienieXi ,1i6tak, jakby były wystąpieniami zmiennej unikalnej, i to samo dlaYi ) miałyby wartośćśrednią0. Przeciwnie, jeślinajpierwzbudujemy dwie zmienneX,Y(utworzone przez rozważenieXX1=X1X1¯,,X6=X6X6¯,Y1=Y1Y1¯,,Y6=Y6Y6¯SEXYXi,1i6Yi0X,Y tak, jakby były wystąpieniami zmiennej unikalnej, i to samo dla Y i ), to oczywiście odjęcie średniej (i także podzielenie przez SE X i Y ) nie zmieniłoby rzeczy.Xi,1i6YiXY

EDYCJA 01/01/18

Niech zmienną, a j ( 1 j 12 ) osobnika. Załóżmy, że mamy:ij1j12

;X1j=Y1j=10,j

;X2j=Y2j=8,j

;X3j=Y3j=6,j

;X4j=Y4j=4,j

;X5j=Y5j=2,j

.X6j=Y6j=j,j

Korelacja w tym przypadku powinna wynosić .0.5428

Jeśli wyśrodkujemy każdą zmienną, biorąc pod uwagę, że dla , zarówno X i , jak i Y i nie mają zmian, otrzymujemy: X i j = Y i j = 0 . Jeśli chodzi o i = 6 , otrzymujemy wartości X 6 j = j - 6,5 , Y j 6 = ( 13 - j ) - 6,5 = 6,5 -1i5XiYiXij=Yij=0i=6 (tj. dla X : - 5,5 , - 4,5 , - 3,5 , - 2,5 , - 1,5 , - 0,5 , 0,5 , 1,5 , 2,5 , 3,5 , 4,5 , 5,5 i dokładnie odwrotnie dla Y ) . Ponieważ 0 = - 0 i j - 6,5 = - ( 6,5 - j ) , otrzymujemy: X X6j=j6.5,Yj6=(13j)6.5=6.5jX5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5Y0=0j6.5=(6.5j), co oznacza korelację wynoszącą-1.Xij=Yiji,jX=Y1

Federico Tedeschi
źródło
Zgadzam się z tobą, jeśli zastosujemy się do drugiej procedury. Dlatego uważam, że Ruben van Bergen miał na myśli to, co opisałem w pierwszej procedurze. W tym przypadku mamy: , ale c o r ( X , Y ) = c o r ( X , Y )cor(Xi,Yi)=cor(Xi,Yi),icor(X,Y)=cor(X,Y)nie jest ogólnie prawdą. Edytuję swój post, aby pokazać kontrprzykład.
Federico Tedeschi
Wartości dające korelację wynoszą: X = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 6 , 6 ,0.5428 ; Y = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12 . Nie ma znaczenia, czy korelacja rzeczywiście wynosi 0,5428Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,10.5428, ponieważ wyraźnie różni się od . 1
Federico Tedeschi,
X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5 and X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5 is 1. The fact you say that X=1,,12 and Y=12,,1 leads to cor(X,Y)=cor(X,Y)=1 is true, but this only means that cor(Xi,Yi)=cor(Xi,Yi), that is something I've already written.
Federico Tedeschi
Of course cor(X;Y)=cor(XX¯;YY¯): this is a consequence of the invariance of correlation to linear transformations. This is something I have agreed upon already in my first comment, "I agree with you. That's why I interpreted centering as "centering each variable separately before putting them together". "– Federico Tedeschi Dec 27 '17 at 10:27
Federico Tedeschi
Perhaps, I do not understand what "centering each variable separately before putting them together" means. To me, XX¯ means X1X¯,X2X¯,,XnX¯ is "centering each variable separately before putting them together". Can you help me understand our apparent different understanding?
Alexis