Korelacja istotna w każdej grupie, ale nieistotna w ogóle?

9

Załóżmy, że test korelacji Pearsona między zmienną i w grupach i . Czy możliwe jest aby korelacja była znacząca w każdym z i , ale nieistotna, gdy dane z obu grup są połączone? W takim przypadku proszę podać wyjaśnienie. $x$ $y$ $A$ $B$ $(x,y)$ $A$ $B$

correlation co było do okazania
źródło

21

Tak, jest to możliwe i może się zdarzyć na wiele sposobów. Jednym oczywistym przykładem jest wybór członkostwa A i B w sposób odzwierciedlający wartości xiy. Możliwe są inne przykłady, np. Komentarz @ Macro sugeruje alternatywną możliwość.

Rozważmy poniższy przykład, napisany w R. xiy są standardowymi zmiennymi normalnymi, ale jeśli przydzielę je do grup na podstawie względnych wartości xiy, otrzymam nazwę, którą nazwiesz. W grupie A i grupie B istnieje silna statystycznie istotna korelacja między xiy, ale jeśli zignorujesz strukturę grupowania, nie będzie korelacji.

wprowadź opis zdjęcia tutaj

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

Peter Ellis
źródło

+1. To bardzo sprytny przykład, który nie przyszedł mi do głowy.

Makro

13

Jedną z możliwości jest to, że efekty mogą iść w różnych kierunkach w każdej grupie i są anulowane, gdy je agregujesz . Jest to również związane ze sposobem, w jaki pomijając ważny termin interakcji w modelu regresji, główne efekty mogą być mylące.

Załóżmy na przykład w grupie $\rm A$ , prawdziwy związek między odpowiedzią $y_i$ i predyktor $x_i$ jest:

mi (y_{ja} | x_{ja}, sol r o u p ZA) = 1 + x_{ja}

$E(y_i|x_i, {\rm Group \ A}) = 1 + x_i$

i w grupie $\rm B$ ,

mi (y_{ja} | x_{ja}, sol r o u p b) = 1 - x_{ja}

$E(y_i|x_i, {\rm Group \ B}) = 1 - x_i$

Załóżmy, że członkostwo w grupie jest dystrybuowane w taki sposób

P. (sol r o u p ZA) = 1 - P. (sol r o u p b) = p

$P({\rm Group \ A}) = 1-P( {\rm Group \ B}) = p$ Następnie, jeśli zmarginalizujesz członkostwo w grupie i obliczysz

E (y_{i} | x_{i})

$E(y_i|x_i)$ zgodnie z prawem całkowitych oczekiwań otrzymujesz

\begin{aligned} mi (y_{ja} | x_{ja}) = mi (mi (y_{ja} | x_{ja}, sol r o u p)) & = p (1 + x_{ja}) + (1 - p) (1 - x_{ja}) \\ = p + p x_{ja} + 1 - x_{ja} - p + p x_{ja} \\ = 1 - x_{ja} (2) p - 1) \end{aligned}

$\begin{align*} E(y_i | x_i) = E( E(y_i|x_i,{\rm Group}) ) &= p(1+ x_i) + (1-p)(1-x_i) \\ &= p + px_i + 1 - x_i - p + px_i \\ &= 1 - x_i(2p-1) \end{align*}$

Dlatego jeśli $p = 1/2$ , $E(y_i | x_i) = 1$ i nie zależy od $x_i$ w ogóle. Istnieje więc relacja w obu grupach, ale po ich agregacji nie ma relacji. Innymi słowy, dla losowo wybranej osoby w populacji, której członkostwa w grupie nie wiemy, średnio nie będzie związku między $x_i$ i $y_i$ . Ale w każdej grupie jest.

Dowolny przykład, w którym wartość $p$ idealnie równoważy rozmiary efektów w każdej grupie również prowadzi do tego wyniku - to był tylko ten przykład zabawki, aby ułatwić obliczenia :)

Uwaga: W przypadku błędów normalnych znaczenie współczynnika regresji liniowej jest równoważne ze znaczeniem korelacji Pearsona, dlatego w tym przykładzie przedstawiono jedno wyjaśnienie tego, co widzisz.

Makro
źródło

Korelacja istotna w każdej grupie, ale nieistotna w ogóle?

Odpowiedzi: