Doradzałem studentowi badawczemu z konkretnym problemem i chciałem uzyskać wkład innych na tej stronie.
Kontekst:
Badacz miał trzy typy zmiennych predykcyjnych. Każdy typ zawiera inną liczbę zmiennych predykcyjnych. Każdy predyktor był zmienną ciągłą:
- Społecznościowe: S1, S2, S3, S4 (tj. Cztery predyktory)
- Poznawcze: C1, C2 (tj. Dwa predyktory)
- Zachowanie: B1, B2, B3 (tj. Trzy predyktory)
Zmienna wyniku była również ciągła. Próba objęła około 60 uczestników.
Badacz chciał skomentować, który typ predyktorów był ważniejszy w wyjaśnieniu zmiennej wynikowej. Było to związane z szerszymi teoretycznymi obawami dotyczącymi względnego znaczenia tego rodzaju predyktorów.
pytania
- Jaki jest dobry sposób oceny względnej ważności jednego zestawu predyktorów w stosunku do innego zestawu?
- Jaka jest dobra strategia radzenia sobie z faktem, że w każdym zestawie jest inna liczba predyktorów?
- Jakie zastrzeżenia interpretacyjne możesz zasugerować?
Wszelkie odniesienia do przykładów lub omówienie technik byłyby również bardzo mile widziane.
regression
predictor
importance
Jeromy Anglim
źródło
źródło
Znaczenie
Pierwszą rzeczą do zrobienia jest operacjonalizacja „znaczenia predyktorów”. Zakładam, że oznacza to coś w rodzaju „wrażliwości średnich wyników na zmiany wartości predyktorów”. Ponieważ twoje predyktory są pogrupowane, wrażliwość średniego wyniku na grupy predyktorów jest bardziej interesująca niż zmienna przez analizę zmiennych. Pozostawiam otwartą kwestię, czy wrażliwość jest rozumiana przyczynowo. Ten problem zostanie poruszony później.
Trzy wersje ważności
Wyjaśniono wiele wariancji : Domyślam się, że pierwszym portem wywoławczym psychologów jest prawdopodobnie rozkład wariancji prowadzący do pomiaru tego, ile wariancji wyniku tłumaczy się strukturą kowariancji wariancji w każdej grupie predyktorów. Nie będąc eksperymentalistą nie mogę tutaj wiele sugerować, z wyjątkiem tego, że cała koncepcja „wyjaśnienia wariancji” jest dla mnie trochę nieuzasadniona, nawet bez kwestii „która suma kwadratów”. Inni mogą się nie zgodzić i dalej ją rozwijać.
Duże znormalizowane współczynniki : SPSS oferuje (błędnie nazwany) beta do pomiaru wpływu w sposób porównywalny dla różnych zmiennych. Istnieje kilka powodów, aby tego nie używać, omówionych w podręczniku regresji Foxa, tutaj i gdzie indziej. Wszystkie obowiązują tutaj. Ignoruje również strukturę grupy.
Z drugiej strony wyobrażam sobie, że można standaryzować predyktory w grupach i wykorzystywać informacje o kowariancji, aby ocenić efekt jednego standardowego ruchu odchylenia we wszystkich. Osobiście motto: „jeśli coś nie jest warte robienia, nie jest warte robienia dobrze” tłumi moje zainteresowanie.
Duże efekty krańcowe : Drugim podejściem jest pozostanie na skali pomiarów i obliczenie efektów krańcowych między starannie wybranymi punktami próbki. Ponieważ interesują Cię grupy, warto wybrać punkty, aby zróżnicować grupy zmiennych zamiast pojedynczych, np. Manipulując jednocześnie obydwoma zmiennymi poznawczymi. (Dużo okazji do fajnych działek tutaj). Podstawowy papier tutaj .
effects
Pakiet w R zrobi to ładnie.Są tutaj dwa zastrzeżenia:
Jeśli to zrobisz, będziesz chciał uważać, aby nie wybierać dwóch zmiennych poznawczych, które choć indywidualnie wiarygodne, np. Mediany, są dalekie od jakiejkolwiek obserwacji podmiotu.
Niektórych zmiennych nie da się nawet manipulować teoretycznie, więc interpretacja efektów krańcowych jako przyczynowych jest bardziej delikatna, choć nadal przydatna.
Różne liczby predyktorów
Problemy powstają z powodu struktury kowariancji zmiennych pogrupowanych, o którą zwykle staramy się nie martwić, ale w przypadku tego zadania należy.
W szczególności przy obliczaniu efektów krańcowych (lub znormalizowanych współczynników dla tej materii) na grupach, a nie na pojedynczych zmiennych, przekleństwo wymiarów w przypadku większych grup ułatwi porównywanie do obszarów, w których nie ma przypadków. Więcej predyktorów w grupie prowadzi do mniej zaludnionej przestrzeni, więc każda miara ważności będzie bardziej zależała od założeń modelu, a mniej od obserwacji (ale nie powie, że ...) Ale są to te same problemy, co w fazie dopasowania modelu naprawdę. Z pewnością te same, które powstałyby w opartej na modelach ocenie wpływu przyczynowego.
źródło
źródło
Jedną z metod jest łączenie zbiorów zmiennych w zmienne sheaf. Metody te były szeroko stosowane w socjologii i dziedzinach pokrewnych.
Refs:
Whitt, Hugh P. 1986. „The Sheaf Coefficient: A Uproszczone i rozszerzone podejście”. Social Science Research 15: 174-189.
źródło