Dostaję trochę kłopotliwych wyników dla korelacji sumy z trzecią zmienną, gdy dwa predyktory są ujemnie skorelowane. Co powoduje te kłopotliwe wyniki?
Przykład 1: Korelacja między sumą dwóch zmiennych a trzecią zmienną
Rozważ wzór 16.23 na stronie 427 tekstu Guildforda z 1965 r., Pokazany poniżej.
Zakłopotanie: jeśli obie zmienne korelują .2 z trzecią zmienną i korelują -.7 ze sobą, formuła daje wartość .52. W jaki sposób korelacja sumy z trzecią zmienną może wynosić 0,52, jeśli każda z dwóch zmiennych koreluje tylko .2 z trzecią zmienną?
Przykład 2: Jaka jest wielokrotna korelacja między dwiema zmiennymi a trzecią zmienną?
Rozważ wzór 16.1 na stronie 404 tekstu Guildforda z 1965 r. (Pokazany poniżej).
Niepokojące odkrycie: ta sama sytuacja. Jeśli obie zmienne korelują .2 z trzecią zmienną i korelują -.7 ze sobą, formuła daje wartość .52. W jaki sposób korelacja sumy z trzecią zmienną może wynosić 0,52, jeśli każda z dwóch zmiennych koreluje tylko .2 z trzecią zmienną?
Próbowałem szybkiej małej symulacji Monte Carlo, która potwierdza wyniki formuł Guilforda.
Ale jeśli każdy z dwóch predyktorów przewiduje 4% wariancji trzeciej zmiennej, w jaki sposób ich suma przewiduje 1/4 wariancji?
Źródło: Fundamental Statistics in Psychology and Education, 4th ed., 1965.
WYJAŚNIENIE
Sytuacja, z którą mam do czynienia, polega na przewidywaniu przyszłych wyników poszczególnych osób na podstawie pomiaru ich umiejętności.
Dwa poniższe diagramy Venna pokazują moje rozumienie sytuacji i mają na celu wyjaśnienie mojego zdziwienia.
Ten diagram Venna (ryc. 1) odzwierciedla zerowy rząd r = .2 między x1 i C. W moim polu istnieje wiele takich zmiennych predykcyjnych, które skromnie przewidują kryterium.
Ten diagram Venna (ryc. 2) odzwierciedla dwa takie predyktory, x1 i x2, każdy przewidujący C przy r = .2 i dwa predyktory ujemnie skorelowane, r = - .7.
Nie potrafię sobie wyobrazić związku między dwoma predyktorami r = .2, które sprawiłyby, że razem przewidywałyby 25% wariancji C.
Szukam pomocy w zrozumieniu związku między x1, x2 i C.
Jeśli (jak sugerują niektórzy w odpowiedzi na moje pytanie) x2 działa jak zmienna tłumiąca dla x1, to jaki obszar na drugim schemacie Venna jest tłumiony?
Jeśli konkretny przykład byłby pomocny, możemy uznać x1 i x2 za dwie ludzkie umiejętności, a C za 4 lata GPA na studiach, 4 lata później.
Mam problem z wyobrażeniem sobie, jak zmienna supresorowa może spowodować powiększenie wyjaśnionej 8% wariancji dwóch r = .2 rzędu zerowego i wyjaśnienie 25% wariancji C. Konkretny przykład byłby bardzo pomocną odpowiedzią.
źródło
Odpowiedzi:
Może się to zdarzyć, gdy oba predyktory zawierają duży czynnik uciążliwości, ale z przeciwnym znakiem, więc gdy je dodasz, uciążliwość anuluje się i otrzymasz coś znacznie bliższego trzeciej zmiennej.
Zilustrujmy to jeszcze bardziej ekstremalnym przykładem. Załóżmy , że są niezależnymi standardowymi zmiennymi losowymi. Teraz pozwólX, Y∼ N.( 0 , 1 )
Powiedzmy, że jest twoją trzecią zmienną, A , B to twoje dwa predyktory, a X to ukryta zmienna, o której nic nie wiesz. Korelacja A z Y wynosi 0, a korelacja B z Y jest bardzo mała, zbliżona do 0,00001. * Ale korelacja A + B z Y wynosi 1.Y A , B X A + B Y
* Istnieje drobna korekta dla odchylenia standardowego B, które jest nieco większe niż 1.
źródło
Pomocne może być wyobrażenie sobie trzech zmiennych jako liniowych kombinacji innych zmiennych nieskorelowanych. Aby poprawić nasz wgląd, możemy przedstawić je geometrycznie, pracować z nimi algebraicznie i dostarczać opisy statystyczne według własnego uznania.
Wyjaśnienie geometryczne
Poniższa grafika przedstawia wszystko, czego potrzebujesz, aby zrozumieć relacje między tymi zmiennymi.
Obliczenia algebraiczne
Dla tych, którzy chcą więcej rygorystyczności, oto algebra do tworzenia kopii zapasowej geometrii w grafice.
i
Wreszcie,
W konsekwencji te trzy zmienne mają pożądane korelacje.
Wyjaśnienie statystyczne
Teraz widzimy, dlaczego wszystko działa tak, jak działa:
źródło
Kolejny prosty przykład:
Następnie:
Geometrycznie dzieje się tak jak w grafice WHubera. Koncepcyjnie może to wyglądać mniej więcej tak:
źródło
Adresowanie komentarza:
Problemem wydaje się tutaj terminologia „wyjaśniona wariancja”. Podobnie jak wiele terminów w statystykach, wybrano to, aby brzmiało to tak, jakby znaczyło więcej niż w rzeczywistości.
źródło