Porównywanie znaczenia różnych zestawów predyktorów

13

Doradzałem studentowi badawczemu z konkretnym problemem i chciałem uzyskać wkład innych na tej stronie.

Kontekst:

Badacz miał trzy typy zmiennych predykcyjnych. Każdy typ zawiera inną liczbę zmiennych predykcyjnych. Każdy predyktor był zmienną ciągłą:

  • Społecznościowe: S1, S2, S3, S4 (tj. Cztery predyktory)
  • Poznawcze: C1, C2 (tj. Dwa predyktory)
  • Zachowanie: B1, B2, B3 (tj. Trzy predyktory)

Zmienna wyniku była również ciągła. Próba objęła około 60 uczestników.

Badacz chciał skomentować, który typ predyktorów był ważniejszy w wyjaśnieniu zmiennej wynikowej. Było to związane z szerszymi teoretycznymi obawami dotyczącymi względnego znaczenia tego rodzaju predyktorów.

pytania

  • Jaki jest dobry sposób oceny względnej ważności jednego zestawu predyktorów w stosunku do innego zestawu?
  • Jaka jest dobra strategia radzenia sobie z faktem, że w każdym zestawie jest inna liczba predyktorów?
  • Jakie zastrzeżenia interpretacyjne możesz zasugerować?

Wszelkie odniesienia do przykładów lub omówienie technik byłyby również bardzo mile widziane.

Jeromy Anglim
źródło

Odpowiedzi:

8

Propozycje

  • Można wykonać indywidualne wielokrotne regresje dla każdego rodzaju predyktora i porównać w wielu regresjach, skorygowanym r-kwadracie, uogólnionym r-kwadracie lub innej objaśnionej miary wariancji skorygowanej o skaryzmę.
  • Alternatywnie możesz zapoznać się z ogólną literaturą o zmiennym znaczeniu ( patrz tutaj, aby uzyskać dyskusję z linkami ). Zachęciłoby to do skupienia się na znaczeniu poszczególnych predyktorów.
  • W niektórych sytuacjach regresja hierarchiczna może stanowić przydatne ramy. Wprowadziłbyś jeden typ zmiennej w jednym bloku (np. Zmienne poznawcze), a w drugim bloku inny typ (np. Zmienne społeczne). Pomogłoby to odpowiedzieć na pytanie, czy jeden typ zmiennej przewiduje coś więcej niż inny typ.
  • W ramach badania pobocznego można przeprowadzić analizę czynnikową zmiennych predykcyjnych, aby sprawdzić, czy korelacje między zmiennymi predykcyjnymi odwzorowują przypisanie zmiennych do typów.

Ostrzeżenia

  • Typy zmiennych, takich jak poznawcze, społeczne i behawioralne, są szerokimi klasami zmiennych. Dane badanie zawsze będzie zawierać tylko podzbiór możliwych zmiennych, a zazwyczaj taki podzbiór jest niewielki w stosunku do możliwych zmiennych. Ponadto zmierzone zmienne mogą nie być najbardziej wiarygodnym lub właściwym sposobem pomiaru zamierzonej konstrukcji. Dlatego należy zachować ostrożność, wyciągając szersze wnioski na temat względnego znaczenia danego typu zmiennej w stosunku do tego, co faktycznie zmierzono.
  • Należy również wziąć pod uwagę wszelkie odchylenie w sposobie pomiaru zmiennej zależnej. Zwłaszcza w badaniach psychologicznych istnieje tendencja do tego, by miary samoopisu korelowały dobrze z samoopisaniem, zdolnością z umiejętnością, innym zgłaszaniem z innym raportem i tak dalej. Problem polega na tym, że sposób pomiaru ma duży wpływ poza rzeczywistą konstrukcją będącą przedmiotem zainteresowania. Zatem jeśli zmienna zależna jest mierzona w określony sposób (np. Autoportret), to nie należy nadmiernie interpretować większych korelacji z jednym typem predyktora, jeśli ten typ również wykorzystuje autoregulację.
Jeromy Anglim
źródło
Z przyjemnością przeczytałem tę jasną, pomocną odpowiedź i zamierzam podzielić się nią z kolegą.
rolando2
7

Znaczenie

Pierwszą rzeczą do zrobienia jest operacjonalizacja „znaczenia predyktorów”. Zakładam, że oznacza to coś w rodzaju „wrażliwości średnich wyników na zmiany wartości predyktorów”. Ponieważ twoje predyktory są pogrupowane, wrażliwość średniego wyniku na grupy predyktorów jest bardziej interesująca niż zmienna przez analizę zmiennych. Pozostawiam otwartą kwestię, czy wrażliwość jest rozumiana przyczynowo. Ten problem zostanie poruszony później.

Trzy wersje ważności

Wyjaśniono wiele wariancji : Domyślam się, że pierwszym portem wywoławczym psychologów jest prawdopodobnie rozkład wariancji prowadzący do pomiaru tego, ile wariancji wyniku tłumaczy się strukturą kowariancji wariancji w każdej grupie predyktorów. Nie będąc eksperymentalistą nie mogę tutaj wiele sugerować, z wyjątkiem tego, że cała koncepcja „wyjaśnienia wariancji” jest dla mnie trochę nieuzasadniona, nawet bez kwestii „która suma kwadratów”. Inni mogą się nie zgodzić i dalej ją rozwijać.

Duże znormalizowane współczynniki : SPSS oferuje (błędnie nazwany) beta do pomiaru wpływu w sposób porównywalny dla różnych zmiennych. Istnieje kilka powodów, aby tego nie używać, omówionych w podręczniku regresji Foxa, tutaj i gdzie indziej. Wszystkie obowiązują tutaj. Ignoruje również strukturę grupy.

Z drugiej strony wyobrażam sobie, że można standaryzować predyktory w grupach i wykorzystywać informacje o kowariancji, aby ocenić efekt jednego standardowego ruchu odchylenia we wszystkich. Osobiście motto: „jeśli coś nie jest warte robienia, nie jest warte robienia dobrze” tłumi moje zainteresowanie.

Duże efekty krańcowe : Drugim podejściem jest pozostanie na skali pomiarów i obliczenie efektów krańcowych między starannie wybranymi punktami próbki. Ponieważ interesują Cię grupy, warto wybrać punkty, aby zróżnicować grupy zmiennych zamiast pojedynczych, np. Manipulując jednocześnie obydwoma zmiennymi poznawczymi. (Dużo okazji do fajnych działek tutaj). Podstawowy papier tutaj . effectsPakiet w R zrobi to ładnie.

Są tutaj dwa zastrzeżenia:

  1. Jeśli to zrobisz, będziesz chciał uważać, aby nie wybierać dwóch zmiennych poznawczych, które choć indywidualnie wiarygodne, np. Mediany, są dalekie od jakiejkolwiek obserwacji podmiotu.

  2. Niektórych zmiennych nie da się nawet manipulować teoretycznie, więc interpretacja efektów krańcowych jako przyczynowych jest bardziej delikatna, choć nadal przydatna.

Różne liczby predyktorów

Problemy powstają z powodu struktury kowariancji zmiennych pogrupowanych, o którą zwykle staramy się nie martwić, ale w przypadku tego zadania należy.

W szczególności przy obliczaniu efektów krańcowych (lub znormalizowanych współczynników dla tej materii) na grupach, a nie na pojedynczych zmiennych, przekleństwo wymiarów w przypadku większych grup ułatwi porównywanie do obszarów, w których nie ma przypadków. Więcej predyktorów w grupie prowadzi do mniej zaludnionej przestrzeni, więc każda miara ważności będzie bardziej zależała od założeń modelu, a mniej od obserwacji (ale nie powie, że ...) Ale są to te same problemy, co w fazie dopasowania modelu naprawdę. Z pewnością te same, które powstałyby w opartej na modelach ocenie wpływu przyczynowego.

sprzężonyprior
źródło
7

χ2)L.1,L.2),L.3)χ2)L1a,L2b,L3doχ2)

Frank Harrell
źródło
Aby potwierdzić, twoje podejście polega na obliczeniu L1 jako redukcji dewiacji (-2 *) wynikającej z włączenia czterech zmiennych społecznych, skorygowanych o df tych czterech zmiennych? I podobnie z kolei dla L2 i L3?
B_Miner
χ2)
czy przyznałbyś również, że istnieje ryzyko, przy opracowaniu czysto statystycznego rozwiązania, pominięcia możliwego nadrzędnego problemu, w wyniku którego wszystkie 3 grupy predyktorów mogłyby mierzyć występujące jednocześnie cechy / zachowania. Czy bez wcześniejszej przyczyny-późniejszej podstawy łańcucha przyczynowego, czy niemożliwe może być definitywne rozplątywanie związków przyczynowych w tej sytuacji - niezależnie od naszych obliczeń? (Próbuję myśleć tak, jak James Davis w The Logic of Causal Order.)
rolando2
Na pewno. Łańcuch przyczynowy należy zrozumieć, zanim rozpocznie się modelowanie.
Frank Harrell
@FrankHarrell Czy te wyniki dotyczą również karanego prawdopodobieństwa? Czy karane prawdopodobieństwo ma jakieś właściwości, które odróżniają go od prawdopodobieństwa w odniesieniu do tej miary o zmiennym znaczeniu? Czy możesz zasugerować jakieś dokumenty, które bardziej szczegółowo to opisują? Dzięki.
julieth
2

Jedną z metod jest łączenie zbiorów zmiennych w zmienne sheaf. Metody te były szeroko stosowane w socjologii i dziedzinach pokrewnych.

Refs:

Whitt, Hugh P. 1986. „The Sheaf Coefficient: A Uproszczone i rozszerzone podejście”. Social Science Research 15: 174-189.

GaryMarks
źródło