Jak obliczyć korelację między / w grupach zmiennych?

13

Mam macierz 1000 obserwacji i 50 zmiennych mierzonych w 5-punktowej skali. Te zmienne są zorganizowane w grupy, ale w każdej grupie nie ma równej liczby zmiennych.

Chciałbym obliczyć dwa rodzaje korelacji:

  1. Korelacja w obrębie grup zmiennych (między cechami): pewna miara tego, czy zmienne w grupie zmiennych mierzą to samo.
  2. Korelacja między grupami zmiennych: pewna miara, przy założeniu, że każda grupa odzwierciedla jedną ogólną cechę, w jaki sposób każda cecha (grupa) jest powiązana z każdą inną cechą.

Te cechy zostały wcześniej podzielone na grupy. Chciałbym znaleźć korelację między grupami - tzn. Zakładając, że cechy wewnątrz grupy mierzą tę samą cechę podstawową (po ukończeniu punktu 1 powyżej - alfa Cronbacha), czy same cechy są ze sobą powiązane?

Czy ktoś ma sugestie, od czego zacząć?

Blep
źródło
1
Jeśli znasz R, istnieje pakiet veganz funkcjami anosimlub najlepiej adonis(permutacyjna MANOVA).
Roman Luštrik
Mam pytanie zaktualizowane, aby spróbować użyć standardowej terminologii (czyli zmienne nie cech; grupy zmiennych zamiast „grup”)
Jeromy Anglim

Odpowiedzi:

16

To, co sugeruje @rolando, wygląda na dobry początek, jeśli nie całą odpowiedź (IMO). Pozwolę sobie kontynuować podejście korelacyjne, zgodne z ramami teorii testów klasycznych (CTT). Tutaj, jak zauważył @Jeromy, miarę podsumowującą dla twojej grupy cech można uznać za sumę (lub sumę) wyniku wszystkich elementów (cecha, twoimi słowami) należących do tego, co teraz będę określał jako skalę. Zgodnie z CTT pozwala nam to sformalizować indywidualną skłonność lub cechę „cechy” jako lokalizacji osoby w ciągłej skali odzwierciedlającej konstrukcję leżącą u jej podstaw (cecha ukryta), chociaż tutaj jest to jedynie skala porządkowa (ale to kolejna debata w literaturze psychometrii) .

To, co opisałeś, ma związek z tym, co jest znane jako zbieżność (w jakim stopniu przedmioty należące do tej samej skali korelują ze sobą) i dyskryminacja (przedmioty należące do różnych skal nie powinny w dużym stopniu korelować) trafność w psychometrii. Techniki klasyczne obejmują analizę wielu cech i wielu metod (MTMM) (Campbell i Fiske, 1959). Ilustrację tego, jak to działa, pokazano poniżej (trzy metody lub instrumenty, trzy konstrukty lub cechy):

wprowadź opis zdjęcia tutaj

>0,7<.3

Nawet jeśli ta metoda została początkowo opracowana w celu oceny zbieżności i dyskryminacyjnej ważności pewnej liczby cech badanych przez różne przyrządy pomiarowe, można ją zastosować do pojedynczego przyrządu wieloskalowego. Cechy stają się następnie przedmiotami, a metody to tylko różne skale. Uogólnienie tej metody na pojedynczy instrument jest również znane jako skalowanie wielu cech . Pozycje korelujące zgodnie z oczekiwaniami (tj. Z własną skalą zamiast innej skali) są liczone jako sukces skalowania. Generalnie zakładamy jednak, że różne skale nie są ze sobą skorelowane, to znaczy, że są ukierunkowane na różne hipotetyczne konstrukty. Ale uśrednianie korelacji wewnątrz i między skalami zapewnia szybki sposób podsumowania wewnętrznej struktury twojego instrumentu. Innym wygodnym sposobem na to jest zastosowanie analizy skupień na macierzy korelacji par i zobaczenie, jak zmienne się zawieszają.

Należy zauważyć, że w obu przypadkach obowiązują zwykłe zastrzeżenia dotyczące pracy z miarami korelacji, tzn. Nie można uwzględnić błędu pomiaru, potrzebna jest duża próbka, zakłada się, że instrumenty lub testy są „równoległe” (równoważność tau, błędy nieskorelowane, równe wariancje błędów).

Interesująca jest także druga część, do której odnosi się @rolando: jeśli nie ma teoretycznych ani merytorycznych przesłanek, że ustalona już grupa przedmiotów ma sens, musisz znaleźć sposób na podkreślenie struktury swoich danych, np. Poprzez analizę czynników eksploracyjnych . Ale nawet jeśli ufasz tym „cechom w grupie”, możesz sprawdzić, czy jest to prawidłowe założenie. Teraz możesz używać potwierdzającego modelu analizy czynnikowej, aby sprawdzić, czy wzór ładowań elementów (korelacja elementu z własną skalą) zachowuje się zgodnie z oczekiwaniami.

Zamiast tradycyjnych metod analizy czynnikowej można również przyjrzeć się grupowaniu przedmiotów (Revelle, 1979), która polega na opartej na alfa regule podziału Cronbacha, aby pogrupować przedmioty w jednorodne skale.

Ostatnie słowo: jeśli używasz R, istnieją dwa bardzo ładne pakiety, które ułatwią powyższe kroki:

  • psych , oferuje wszystko, co potrzebne do rozpoczęcia korzystania z metod psychometrycznych, w tym analizy czynnikowej ( fa, fa.parallel, principal), grupowania przedmiotów ( ICLUSTi związane z nimi metody), alfa Cronbacha ( alpha); jest ładny opis dostępny na stronie internetowej Williama Revelle, zwłaszcza Wprowadzenie do teorii psychometrycznych z aplikacjami w R .
  • psy , obejmuje również wykres scree.plotpiaskowy ( za pomocą PCA + symulowanych zestawów danych) wizualizacja ( ) i MTMM ( mtmm).

Bibliografia

  1. Campbell, DT and Fiske, DW (1959). Walidacja zbieżna i dyskryminacyjna na podstawie macierzy wielozadaniowej. Psychological Bulletin , 56: 81–105.
  2. Hays, RD and Fayers, P. (2005). Ocena skal wielopunktowych. W ocenie jakości życia w badaniach klinicznych (Fayers, P. and Hays, R., Eds.), S. 41–53. Oxford
  3. Revelle, W. (1979). Hierarchiczna analiza skupień i wewnętrzna struktura testów. Multivariate Behavioural Research , 14: 57-74.
chl
źródło
Jest to być może najciekawsza odpowiedź, jaką przeczytałem na którejkolwiek z giełd i studiowałem ekonometrię od 5 lat.
d8aninja
Czy uwzględniona tu macierz MTMM ma być realistycznym przykładem macierzy korelacji? Jeśli tak, to zauważę, że tak naprawdę nie jest to dodatnia macierz półfinałowa: na przykład pomniejszenie 4 na 4 dla korelacji cech 1,2 w metodach 1,2 ma wyznacznik -0,0419179. (Ponieważ jest to mała wartość ujemna, to może po prostu chodzi o twój punkt dotyczący: „błędu pomiaru”.)
Semiclassical
7

Sposób, w jaki czytam twoją terminologię, polega na tym, aby najpierw ocenić spójność wewnętrzną w każdej grupie zmiennych, a następnie ocenić korelacje między wynikami skali, które stanowią średnią dla każdej grupy zmiennych. Pierwszy można wykonać za pomocą alfa Cronbacha, a drugi za pomocą korelacji Pearsona. Zakłada się, że masz rozsądnie normalne rozkłady i rozsądnie liniowe relacje.

Metodą bardziej zaangażowaną, niekoniecznie wymaganą, byłoby przeprowadzenie eksploracyjnej analizy czynnikowej. Próbowałbyś ustalić, które zmienne powinny być zgrupowane, a następnie do jakiego stopnia czynniki te byłyby skorelowane. Jeśli wypróbujesz tę metodę, upewnij się, że używasz skośnego obrotu, aby umożliwić pojawienie się tych korelacji. To, czy użyjesz ekstrakcji głównych komponentów, czy ekstrakcji osi głównej, będzie zależeć odpowiednio od tego, czy twoje zmienne są obiektywne, bezbłędne pomiary lub subiektywne, takie jak elementy ankiety, które zawierają pewną ilość błędu.

rolando2
źródło
Dzięki za twoją odpowiedź. Udało mi się obliczyć alfa Cronbacha, ale jak w tym przypadku obliczyć współczynniki korelacji Pearsona? Mógłbym obliczyć je parami dla każdej indywidualnej cechy, ale chciałbym wiedzieć, jak obliczyć korelacje między grupami cech. Charakterystyka w grupie będzie miała podobne wyniki dla każdej obserwacji. Zmienię moje pytanie, aby było trochę jaśniej.
blep
5
  • Standardowymi narzędziami, przynajmniej w psychologii, w twojej sytuacji byłyby eksploracyjna i potwierdzająca analiza czynników w celu oceny zbieżności macierzy korelacji między elementami z niektórymi proponowanymi modelami zależności między czynnikami a elementami. Sposób, w jaki sformułowałeś swoje pytanie, sugeruje, że możesz nie znać tej literatury. Na przykład, oto moje uwagi na temat budowy skali i analizy czynnikowej, a oto tutorial w R na temat analizy czynnikowej z Quick-R . Tak więc, chociaż warto odpowiedzieć na twoje konkretne pytanie, myślę, że twoim szerszym celom lepiej będzie służyć, analizując podejście analityczne do oceny wielopunktowych, wieloskładnikowych skal.

  • Inną standardową strategią byłoby obliczanie całkowitych wyników dla każdej grupy zmiennych (co nazwałbym „skalą”) i korelowanie skal.

  • Wiele narzędzi analizy niezawodności będzie raportować średnią korelację między elementami.

  • Jeśli utworzyłeś macierz korelacji 50 na 50 między elementami, możesz napisać w R funkcję uśredniającą podzbiory na podstawie kombinacji grup zmiennych. Możesz nie dostać tego, co chcesz, jeśli masz mieszankę dodatnich i ujemnych elementów, ponieważ ujemne korelacje mogą anulować dodatnie korelacje.

Jeromy Anglim
źródło
2

Sugerowałbym użycie jako zamiennika pojęcia korelacji, która jest zdefiniowana tylko w parach, pojęcia wzajemnej informacji i integracji w modelach Gaussa.

sol1

ja1losol(|do1|)

do1sol1sol1losol(1-ρ2))ρ

Aby obliczyć interakcję między dwiema grupami zmiennych, możesz użyć wzajemnej informacji, która jest po prostu entropią między grupami:

M.U12=ja12-ja1-ja2)

Znalazłem odniesienie do tych pojęć po szybkim google, które mogą być pomocne.

Gael Varoquaux
źródło