Korelacja istotna w każdej grupie, ale nieistotna w ogóle?

9

Załóżmy, że test korelacji Pearsona między zmienną i w grupach i . Czy możliwe jest aby korelacja była znacząca w każdym z i , ale nieistotna, gdy dane z obu grup są połączone? W takim przypadku proszę podać wyjaśnienie.xyZAb(x,y)ZAb

co było do okazania
źródło

Odpowiedzi:

21

Tak, jest to możliwe i może się zdarzyć na wiele sposobów. Jednym oczywistym przykładem jest wybór członkostwa A i B w sposób odzwierciedlający wartości xiy. Możliwe są inne przykłady, np. Komentarz @ Macro sugeruje alternatywną możliwość.

Rozważmy poniższy przykład, napisany w R. xiy są standardowymi zmiennymi normalnymi, ale jeśli przydzielę je do grup na podstawie względnych wartości xiy, otrzymam nazwę, którą nazwiesz. W grupie A i grupie B istnieje silna statystycznie istotna korelacja między xiy, ale jeśli zignorujesz strukturę grupowania, nie będzie korelacji.

wprowadź opis zdjęcia tutaj

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)
Peter Ellis
źródło
+1. To bardzo sprytny przykład, który nie przyszedł mi do głowy.
Makro
13

Jedną z możliwości jest to, że efekty mogą iść w różnych kierunkach w każdej grupie i są anulowane, gdy je agregujesz . Jest to również związane ze sposobem, w jaki pomijając ważny termin interakcji w modelu regresji, główne efekty mogą być mylące.

Załóżmy na przykład w grupie ZA, prawdziwy związek między odpowiedzią yja i predyktor xja jest:

mi(yja|xja,solroup ZA)=1+xja

i w grupie b,

mi(yja|xja,solroup b)=1-xja

Załóżmy, że członkostwo w grupie jest dystrybuowane w taki sposób

P.(solroup ZA)=1-P.(solroup b)=p
Następnie, jeśli zmarginalizujesz członkostwo w grupie i obliczysz mi(yja|xja)zgodnie z prawem całkowitych oczekiwań otrzymujesz

mi(yja|xja)=mi(mi(yja|xja,solroup))=p(1+xja)+(1-p)(1-xja)=p+pxja+1-xja-p+pxja=1-xja(2)p-1)

Dlatego jeśli p=1/2), mi(yja|xja)=1 i nie zależy od xjaw ogóle. Istnieje więc relacja w obu grupach, ale po ich agregacji nie ma relacji. Innymi słowy, dla losowo wybranej osoby w populacji, której członkostwa w grupie nie wiemy, średnio nie będzie związku międzyxja i yja. Ale w każdej grupie jest.

Dowolny przykład, w którym wartość p idealnie równoważy rozmiary efektów w każdej grupie również prowadzi do tego wyniku - to był tylko ten przykład zabawki, aby ułatwić obliczenia :)

Uwaga: W przypadku błędów normalnych znaczenie współczynnika regresji liniowej jest równoważne ze znaczeniem korelacji Pearsona, dlatego w tym przykładzie przedstawiono jedno wyjaśnienie tego, co widzisz.

Makro
źródło