Testowanie istotności trzech lub więcej korelacji z wykorzystaniem transformacji Fishera

Kontynuując moje wcześniejsze posty, o ile rozumiem, jeśli mam trzy współczynniki korelacji, będę musiał je przetestować parami, aby zobaczyć, czy istnieje między nimi znacząca różnica.

Oznacza to, że musiałbym użyć transformacji Fishera do obliczenia wyniku z r, a następnie wartości p z (co robią zalecane kalkulatory we wcześniejszych postach, na szczęście), a następnie ustalić, czy wartość p jest wyższa czy niższa niż moja wartość alfa (0,05) dla każdej pary.

tzn. jeśli 21 do 30 lat to grupa wiekowa 1, 31 do 40 lat to grupa wiekowa 2, a 41 do 50 lat to grupa wiekowa 2, moje porównanie korelacji między ich nawykami zakupowymi a utratą masy ciała byłoby:

Grupa 1 a grupa 2
Grupa 1 a grupa 3
Grupa 2 vs. grupa 3

Czy zamiast wykonać trzy osobne obliczenia, istnieje sposób na wykonanie wszystkich tych obliczeń w jednym kroku?

correlation Adhesh Josh
źródło

Czy mógłbyś być bardziej szczegółowy? Jak w - jaka jest twoja odpowiedź, twoje zmienne objaśniające i jakie korelacje jesteś zainteresowany? Możesz nie transformować Fishera do testowania korelacji, prosty test t może być wystarczający.

suncoolsu,

@ suncoolsu Testuję korelację między nawykami zakupowymi a przyrostem masy ciała w tych trzech grupach. Moje wyniki są następujące: Grupa 1: r = 0,8978, n = 105; Grupa 2: r = 0,5678, n = 95; i Grupa 3: r = 0,7865, n = 120.

Adhesh Josh

Myślę, że twoje dane przechodzą przez IOTT. To jest test urazu międzygałkowego - uderza cię między oczy. Jeśli korelacje .9, .6 i .8 nie różnią się od siebie, co to jest? Ale jeśli jesteś naprawdę zainteresowany

Peter Flom

Odpowiedzi:

Twoje pytanie jest doskonałym przykładem modeli regresji z predyktorami ilościowymi i jakościowymi . W szczególności trzy grupy wiekowe - - są zmiennymi jakościowymi, a zmiennymi ilościowymi są nawyki zakupowe i utrata masy ciała (zgaduję, ponieważ obliczasz korelacje). $1,2, \& \,3$

Muszę podkreślić, że jest to znacznie lepszy sposób modelowania niż obliczanie osobnych korelacji grupowych, ponieważ masz więcej danych do modelowania, dlatego twoje oszacowania błędów (wartości p itp.) Będą bardziej wiarygodne. Bardziej technicznym powodem jest wynikający z tego wyższy stopień swobody w statystyce testu t do testowania istotności współczynników regresji.

Działając zgodnie z zasadą, że jakościowymi predyktorami można zarządzać za zmiennych wskaźnikowych , potrzebne są tutaj tylko dwie zmienne wskaźnikowe, , które są zdefiniowane w następujący sposób: $c$ $c-1$ $X_1, X_2$

X_{1} = 1 if person belongs to group 1; 0 otherwise .

$X_1 = 1 \text{ if person belongs to group 1}; 0 \text{ otherwise} .$

X_{2} = 1 if person belongs to group 2; 0 otherwise .

$X_2 = 1 \text{ if person belongs to group 2}; 0 \text{ otherwise}.$

Oznacza to, że grupa jest reprezentowana przez ; stanowią odpowiedź - zakupy zwyczaj jako i ilościowej odchudzania zmiennej objaśniającej jak . Pasujesz teraz do tego modelu liniowego $3$ $X_1=0, X_2=0$ $Y$ $W$

E [Y] = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} W .

$E[Y]=\beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3W.$ Oczywistym pytaniem jest to, czy ma znaczenie, czy zmienimy i (ponieważ losowo wybrałem nawyki zakupowe jako zmienną odpowiedzi). Odpowiedź brzmi: tak - szacunki współczynników regresji zmienią się, ale test „asocjacji” między uwarunkowanymi grupami (tutaj test t, ale jest taki sam jak test korelacji dla jednej zmiennej predykcyjnej) nie będzie zmiana. Specjalnie

W

$W$

Y

$Y$

E [Y] = β_{0} + β_{3} W -- for third group,

$E[Y]= \beta_0 + \beta_3W \text{ -- for third group},$

E [Y] = (β_{0} + β_{2}) + β_{3} W -- for second group,

$E[Y]= (\beta_0 + \beta_2)+\beta_3W \text{ -- for second group},$

E [Y] = (β_{0} + β_{1}) + β_{3} W -- for first group,

$E[Y]= (\beta_0 + \beta_1)+\beta_3W \text{ -- for first group},$ to jest to równoważne z 3 oddzielnych linii, w zależności od grupy, jeśli działki vs . Jest to dobry sposób na wizualizację tego, co testujesz, ma sens (w zasadzie forma EDA i sprawdzania modelu, ale musisz odpowiednio odróżnić pogrupowane obserwacje). Trzy równoległe linie wskazują brak interakcji między trzema grupami i , a wiele interakcji oznacza, że linie te będą się przecinać.

Y

$Y$

W

$W$

W

$W$

Jak przeprowadzane są testy? Zasadniczo po dopasowaniu modelu i uzyskaniu oszacowań należy przetestować niektóre kontrasty. Specjalnie dla twoich porównań:

Group 2 vs Group 3: β_{2} + β_{0} - β_{0} = 0,

$\text{Group 2 vs Group 3: } \beta_2 + \beta_0 - \beta_0 = 0,$

Group 1 vs Group 3: β_{1} + β_{0} - β_{0} = 0,

$\text{Group 1 vs Group 3: } \beta_1 + \beta_0 - \beta_0 = 0,$

Group 2 vs Group 1: β_{2} + β_{0} - (β_{0} + β_{1}) = 0.

$\text{Group 2 vs Group 1: } \beta_2 + \beta_0 - (\beta_0+\beta_1) = 0.$

suncoolsu
źródło

Testowanie równoważności nachyleń różni się od testowania równoważności korelacji. Patrz na przykład: jessicagrahn.com/uploads/6/0/8/5/6085172/comparecorrcoeff.doc

Wolfgang

Zgadzam się, ale dla jednej zmiennej predykcyjnej powinny być one identyczne z powodu tej relacji .

t^{*} = \frac{ρ \sqrt{n - 2}}{\sqrt{1 - ρ^{2}}} \sim t_{n - 2}

$t^* = \frac{\rho\sqrt{n-2}}{\sqrt{1-\rho^2}} \sim t_{n-2}$

suncoolsu

Ponadto twój dokument mówi o porównywaniu różnych populacji, co nie dotyczy pojedynczego predyktora.

suncoolsu,

Chodzi o to, że może być prawdą, podczas gdy może być fałszywy (i odwrotnie). Korelacja między X i Y zależy nie tylko od , ale także wariancji X i wariancji błędów. Jeśli wariancja X i / lub błędów różni się między 3 grupami, wówczas testujesz różne hipotezy.

H_{0} : β_{1} = β_{2} = β_{3}

$H_0: \beta_1 = \beta_2 = \beta_3$

H_{0} : ρ_{1} = ρ_{2} = ρ_{3}

$H_0: \rho_1 = \rho_2 = \rho_3$

β

$\beta$

Wolfgang

Tak, masz rację (jak powiedziałem wcześniej), ale moja odpowiedź zakłada, że OP był zainteresowany określeniem związku między utratą masy ciała a nawykami zakupowymi na podstawie grup (niekoniecznie korelacji). Chyba się myliłem, ponieważ PO zaakceptował inną odpowiedź. Niemniej jednak ta odpowiedź stanowi przydatną alternatywę (mam nadzieję).

suncoolsu,

Testowanie parami w tej sytuacji nie jest (jeszcze) uzasadnione opisem danych. Powinieneś używać metod regresji wielu zmiennych. Wywołanie R może być:

lm( weight_end ~ shop_habit + age_grp + weight_begin)

Konstruowanie 3 kategorii nie jest najlepszą metodą kontrolowania wieku (lub analizowania jego wkładu, jeśli jest to podstawowe pytanie), ponieważ kategoryzacja może zniekształcać ciągłe relacje, a terminy splajnowe eliminują potrzebę wybierania dowolnych punktów podziału. Po uzyskaniu wystarczających dowodów na powiązanie zmiany masy po odpowiedniej analizie będą dostępne opcje testowania ad hoc.

(Zgodziłem się z większością tego, co @whuber wyraził w komentarzu, i ogólnie uważam jego komentarz za autorytatywny, ale nie rozumiem jego stanowiska w sprawie podejść do regresji).

DWin
źródło