Zastrzeżenie: jeśli uznasz to pytanie za zbyt podobne do innego, cieszę się, że zostało połączone. Jednak nigdzie indziej nie znalazłem satysfakcjonującej odpowiedzi (i nie mam jeszcze „reputacji” do komentowania lub głosowania), więc pomyślałem, że najlepiej byłoby zadać sobie nowe pytanie.
Moje pytanie brzmi: Dla każdego z 12 badanych ludzi obliczyłem współczynnik korelacji (rho Spearmana) między 6 poziomami zmiennej niezależnej X, a odpowiednimi obserwacjami zmiennej zależnej Y. (Uwaga: poziomy X nie są równe między podmiotami.) Mój hipoteza zerowa jest taka, że w populacji ogólnej korelacja ta wynosi zero. Tę hipotezę przetestowałem na dwa sposoby:
Za pomocą testu t dla jednej próby współczynników korelacji uzyskanych od moich 12 badanych.
Przez wyśrodkowanie moich poziomów X i obserwacji Y w taki sposób, że dla każdego uczestnika średnia (X) = 0 i średnia (Y) = 0, a następnie obliczenie korelacji na podstawie danych zagregowanych (72 poziomy X i 72 obserwacje Y) .
Teraz, czytając o pracy ze współczynnikami korelacji (tutaj i gdzie indziej) zacząłem wątpić, czy pierwsze podejście jest poprawne. W szczególności widziałem następujące równanie pojawiające się w kilku miejscach, przedstawione (najwyraźniej) jako test t dla średnich współczynników korelacji:
gdzie byłby średnim współczynnikiem korelacji (i załóżmy, że uzyskaliśmy to przy użyciu transformacji Fishera dla współczynników na podmiot), a liczby obserwacji. Intuicyjnie wydaje mi się to niewłaściwe, ponieważ nie obejmuje żadnej miary zmienności między podmiotami. Innymi słowy, gdybym miał 3 współczynniki korelacji, uzyskałbym tę samą statystykę t, niezależnie od tego, czy byłyby to [0,1, 0,5, 0,9] lub [0,45 0,5 0,55], czy dowolny zakres wartości o tej samej średniej (i )
Podejrzewam zatem, że powyższe równanie w rzeczywistości nie ma zastosowania podczas testowania istotności średniej współczynników korelacji, ale podczas testowania istotności pojedynczego współczynnika korelacji na podstawie obserwacji 2 zmiennych.
Czy ktoś może tutaj potwierdzić tę intuicję lub wyjaśnić, dlaczego jest ona błędna? Ponadto, jeśli ta formuła nie dotyczy mojego przypadku, to czy ktoś wie / właściwe podejście? A może mój własny test numer 2 jest już ważny? Każda pomoc jest mile widziana (w tym wskazówki do poprzednich odpowiedzi, które mogłem przeoczyć lub źle zinterpretować).
źródło
Odpowiedzi:
Lepszym podejściem do analizy tych danych jest zastosowanie modelu mieszanego (czyli modelu efektów mieszanych, modelu hierarchicznego) z
subject
efektem losowym (przechwytywanie losowe lub przechwytywanie losowe + nachylenie). Podsumowując inną odpowiedź :Jest to zasadniczo regresja, która modeluje pojedynczy ogólny związek, jednocześnie pozwalając, aby związek ten różnił się między grupami (ludźmi). Takie podejście korzysta z częściowego gromadzenia danych i bardziej efektywnie wykorzystuje dane.
źródło
Zakładam, że zmiennych ( 6 X i 6 Y ) jest takich samych dla wszystkich osób (w rzeczywistości nie jestem pewien, czy rozumiem, co masz na myśli mówiąc, że poziomy nie są równe między podmiotami: Mam nadzieję, że jesteś odnoszące się do niezależności między zakresami zmiennych, a nie o tym, które zmienne są mierzone dla każdej osoby). Tak, pokazana formuła odnosi się do współczynnika korelacji między dwiema zmiennymi.12 6 X 6 Y
W punkcie 2 mówisz o normalizacji: Myślę, że miałoby to sens, gdybyś zrobił to dla każdej z zmiennych osobno. Jednak mimo to problem z tym podejściem polega na tym, że nie kontroluje on zależności wewnątrz jednostki.6∗2
Uważam, że twoje podejście 1 również nie jest poprawne, ponieważ byłby to test wśród zmiennych o rozkładzie tz zaledwie 10 stopniami swobody, więc nie sądzę, abyś mógł zastosować Centralne Twierdzenie Graniczne w tym przypadku.6 t 10
Być może, przy większych ilościach, można użyć efektu losowego podejście, pozwalające na losowej stoku i jednocześnie testując zarówno null średniego współczynnika (od na Y í ) i nieistnienia losowym współczynnikiem. Uważam jednak, że 6 zmiennych i 12 obserwacji to za mało, aby to zrobić.Xi Yi
Sugeruję, abyś postrzegał to jako test na 6 wartościach (staje się 12, jeśli weźmiesz również pod uwagę wartości poniżej przekątnej) macierzy korelacji wśród zmiennych (zarówno X, jak i Y ), tj. Tych na przekątnej drugiej (i równoważnie trzeciej) ćwiartki. W związku z tym wykonałbym test stosunku prawdopodobieństwa między modelem ograniczonym i nieograniczonym.12 X Y
@Alexis Rozumiem, że centrowanie , Y 1 , … , Y 6 , zastępując je X ∗ 1 = X 1 - ¯ X 1 , … , X ∗ 6 = X 6 - ¯ X 6 , Y ∗ 1 = Y 1 - ¯ Y 1 , … , Y ∗X1,…,X6 Y1,…,Y6 sensu (chyba, że to także sensowne, aby podzielić je przez ichSe„e). W ten sposób zmienneX∗iY∗(utworzone przez uwzględnienieX ∗ i ,1≤i≤6tak, jakby były wystąpieniami zmiennej unikalnej, i to samo dlaY ∗ i ) miałyby wartośćśrednią0. Przeciwnie, jeślinajpierwzbudujemy dwie zmienneX,Y(utworzone przez rozważenieXX∗1=X1−X1¯,…,X∗6=X6−X6¯,Y∗1=Y1−Y1¯,…,Y∗6=Y6−Y6¯ SE X∗ Y∗ X∗i,1≤i≤6 Y∗i 0 X,Y tak, jakby były wystąpieniami zmiennej unikalnej, i to samo dla Y i ), to oczywiście odjęcie średniej (i także podzielenie przez SE X i Y ) nie zmieniłoby rzeczy.Xi,1≤i≤6 Yi X Y
EDYCJA 01/01/18
Niech zmienną, a j ( 1 ≤ j ≤ 12 ) osobnika. Załóżmy, że mamy:i j 1≤j≤12
;X1j=Y1j=10,∀j
;X2j=Y2j=8,∀j
;X3j=Y3j=6,∀j
;X4j=Y4j=4,∀j
;X5j=Y5j=2,∀j
.X6j=−Y6j=j,∀j
Korelacja w tym przypadku powinna wynosić .0.5428
Jeśli wyśrodkujemy każdą zmienną, biorąc pod uwagę, że dla , zarówno X i , jak i Y i nie mają zmian, otrzymujemy: X ∗ i j = Y ∗ i j = 0 . Jeśli chodzi o i = 6 , otrzymujemy wartości X ∗ 6 j = j - 6,5 , Y ∗ j 6 = ( 13 - j ) - 6,5 = 6,5 -1≤i≤5 Xi Yi X∗ij=Y∗ij=0 i=6 (tj. dla X : - 5,5 , - 4,5 , - 3,5 , - 2,5 , - 1,5 , - 0,5 , 0,5 , 1,5 , 2,5 , 3,5 , 4,5 , 5,5 i dokładnie odwrotnie dla Y ) . Ponieważ 0 = - 0 i j - 6,5 = - ( 6,5 - j ) , otrzymujemy: X ∗X∗6j=j−6.5,Y∗j6=(13−j)−6.5=6.5−j X −5.5,−4.5,−3.5,−2.5,−1.5,−0.5,0.5,1.5,2.5,3.5,4.5,5.5 Y 0=−0 j−6.5=−(6.5−j) , co oznacza korelację wynoszącą-1.X∗ij=−Y∗ij∀i,j→X∗=−Y∗ −1
źródło