Testowanie istotności trzech lub więcej korelacji z wykorzystaniem transformacji Fishera

9

Kontynuując moje wcześniejsze posty, o ile rozumiem, jeśli mam trzy współczynniki korelacji, będę musiał je przetestować parami, aby zobaczyć, czy istnieje między nimi znacząca różnica.

Oznacza to, że musiałbym użyć transformacji Fishera do obliczenia wyniku z r, a następnie wartości p z (co robią zalecane kalkulatory we wcześniejszych postach, na szczęście), a następnie ustalić, czy wartość p jest wyższa czy niższa niż moja wartość alfa (0,05) dla każdej pary.

tzn. jeśli 21 do 30 lat to grupa wiekowa 1, 31 do 40 lat to grupa wiekowa 2, a 41 do 50 lat to grupa wiekowa 2, moje porównanie korelacji między ich nawykami zakupowymi a utratą masy ciała byłoby:

  • Grupa 1 a grupa 2
  • Grupa 1 a grupa 3
  • Grupa 2 vs. grupa 3

Czy zamiast wykonać trzy osobne obliczenia, istnieje sposób na wykonanie wszystkich tych obliczeń w jednym kroku?

Adhesh Josh
źródło
1
Czy mógłbyś być bardziej szczegółowy? Jak w - jaka jest twoja odpowiedź, twoje zmienne objaśniające i jakie korelacje jesteś zainteresowany? Możesz nie transformować Fishera do testowania korelacji, prosty test t może być wystarczający.
suncoolsu,
@ suncoolsu Testuję korelację między nawykami zakupowymi a przyrostem masy ciała w tych trzech grupach. Moje wyniki są następujące: Grupa 1: r = 0,8978, n = 105; Grupa 2: r = 0,5678, n = 95; i Grupa 3: r = 0,7865, n = 120.
Adhesh Josh
Myślę, że twoje dane przechodzą przez IOTT. To jest test urazu międzygałkowego - uderza cię między oczy. Jeśli korelacje .9, .6 i .8 nie różnią się od siebie, co to jest? Ale jeśli jesteś naprawdę zainteresowany
Peter Flom

Odpowiedzi:

4

Twoje pytanie jest doskonałym przykładem modeli regresji z predyktorami ilościowymi i jakościowymi . W szczególności trzy grupy wiekowe - - są zmiennymi jakościowymi, a zmiennymi ilościowymi są nawyki zakupowe i utrata masy ciała (zgaduję, ponieważ obliczasz korelacje).1,2,&3

Muszę podkreślić, że jest to znacznie lepszy sposób modelowania niż obliczanie osobnych korelacji grupowych, ponieważ masz więcej danych do modelowania, dlatego twoje oszacowania błędów (wartości p itp.) Będą bardziej wiarygodne. Bardziej technicznym powodem jest wynikający z tego wyższy stopień swobody w statystyce testu t do testowania istotności współczynników regresji.

Działając zgodnie z zasadą, że jakościowymi predyktorami można zarządzać za zmiennych wskaźnikowych , potrzebne są tutaj tylko dwie zmienne wskaźnikowe, , które są zdefiniowane w następujący sposób:cc1X1,X2

X1=1 if person belongs to group 1;0 otherwise.
X2=1 if person belongs to group 2;0 otherwise.

Oznacza to, że grupa jest reprezentowana przez ; stanowią odpowiedź - zakupy zwyczaj jako i ilościowej odchudzania zmiennej objaśniającej jak . Pasujesz teraz do tego modelu liniowego3X1=0,X2=0YW

E[Y]=β0+β1X1+β2X2+β3W.
Oczywistym pytaniem jest to, czy ma znaczenie, czy zmienimy i (ponieważ losowo wybrałem nawyki zakupowe jako zmienną odpowiedzi). Odpowiedź brzmi: tak - szacunki współczynników regresji zmienią się, ale test „asocjacji” między uwarunkowanymi grupami (tutaj test t, ale jest taki sam jak test korelacji dla jednej zmiennej predykcyjnej) nie będzie zmiana. SpecjalnieWY

E[Y]=β0+β3W -- for third group,
E[Y]=(β0+β2)+β3W -- for second group,
E[Y]=(β0+β1)+β3W -- for first group,
to jest to równoważne z 3 oddzielnych linii, w zależności od grupy, jeśli działki vs . Jest to dobry sposób na wizualizację tego, co testujesz, ma sens (w zasadzie forma EDA i sprawdzania modelu, ale musisz odpowiednio odróżnić pogrupowane obserwacje). Trzy równoległe linie wskazują brak interakcji między trzema grupami i , a wiele interakcji oznacza, że ​​linie te będą się przecinać.YWW

Jak przeprowadzane są testy? Zasadniczo po dopasowaniu modelu i uzyskaniu oszacowań należy przetestować niektóre kontrasty. Specjalnie dla twoich porównań:

Group 2 vs Group 3: β2+β0β0=0,
Group 1 vs Group 3: β1+β0β0=0,
Group 2 vs Group 1: β2+β0(β0+β1)=0.
suncoolsu
źródło
Testowanie równoważności nachyleń różni się od testowania równoważności korelacji. Patrz na przykład: jessicagrahn.com/uploads/6/0/8/5/6085172/comparecorrcoeff.doc
Wolfgang
Zgadzam się, ale dla jednej zmiennej predykcyjnej powinny być one identyczne z powodu tej relacji . t=ρn21ρ2tn2
suncoolsu
Ponadto twój dokument mówi o porównywaniu różnych populacji, co nie dotyczy pojedynczego predyktora.
suncoolsu,
Chodzi o to, że może być prawdą, podczas gdy może być fałszywy (i odwrotnie). Korelacja między X i Y zależy nie tylko od , ale także wariancji X i wariancji błędów. Jeśli wariancja X i / lub błędów różni się między 3 grupami, wówczas testujesz różne hipotezy. H0:β1=β2=β3H0:ρ1=ρ2=ρ3β
Wolfgang
Tak, masz rację (jak powiedziałem wcześniej), ale moja odpowiedź zakłada, że ​​OP był zainteresowany określeniem związku między utratą masy ciała a nawykami zakupowymi na podstawie grup (niekoniecznie korelacji). Chyba się myliłem, ponieważ PO zaakceptował inną odpowiedź. Niemniej jednak ta odpowiedź stanowi przydatną alternatywę (mam nadzieję).
suncoolsu,
1

Testowanie parami w tej sytuacji nie jest (jeszcze) uzasadnione opisem danych. Powinieneś używać metod regresji wielu zmiennych. Wywołanie R może być:

lm( weight_end ~ shop_habit + age_grp + weight_begin)

Konstruowanie 3 kategorii nie jest najlepszą metodą kontrolowania wieku (lub analizowania jego wkładu, jeśli jest to podstawowe pytanie), ponieważ kategoryzacja może zniekształcać ciągłe relacje, a terminy splajnowe eliminują potrzebę wybierania dowolnych punktów podziału. Po uzyskaniu wystarczających dowodów na powiązanie zmiany masy po odpowiedniej analizie będą dostępne opcje testowania ad hoc.

(Zgodziłem się z większością tego, co @whuber wyraził w komentarzu, i ogólnie uważam jego komentarz za autorytatywny, ale nie rozumiem jego stanowiska w sprawie podejść do regresji).

DWin
źródło