Czy używać modelowania równań strukturalnych do analizy badań obserwacyjnych w psychologii

Moje zastrzeżenie : Zdaję sobie sprawę, że to pytanie od jakiegoś czasu było uśpione, ale wydaje się, że jest ważne i takie, które miało na celu wywołać wiele odpowiedzi. Jestem psychologiem społecznym, a z jego brzmień, prawdopodobnie bardziej komfortowo z takimi projektami niż Henrik (choć jego obawy dotyczące interpretacji przyczynowych są całkowicie uzasadnione).

Na jakich warunkach SEM jest odpowiednią techniką analizy danych?

Dla mnie to pytanie faktycznie dotyczy dwóch odrębnych pytań cząstkowych:

Po co używać SEM?
Jeśli badacz zdecydował się na użycie SEM, jakie są wymagania dotyczące danych dotyczące korzystania z SEM?

Po co używać SEM?

SEM jest bardziej szczegółowym i skomplikowanym - a przez to mniej dostępnym - podejściem do analizy danych niż inne, bardziej typowe, ogólne podejścia do modelowania liniowego (np. ANOVA, korelacje, regresja i ich rozszerzenia itp.). Wszystko, co możesz wymyślić z tymi podejściami, możesz zrobić dzięki SEM.

W związku z tym uważam, że potencjalni użytkownicy powinni najpierw zdecydowanie ocenić, dlaczego są zmuszeni do korzystania z SEM w pierwszej kolejności. Oczywiście SEM oferuje użytkownikom pewne potężne korzyści, ale przejrzałem artykuły, w których nie wykorzystano żadnej z tych korzyści, a produktem końcowym jest sekcja analizy danych w artykule, który jest niepotrzebnie trudniejszy do zrozumienia dla typowych czytelników . Po prostu nie jest to warte kłopotu - dla badacza lub czytelnika - jeśli nie wykorzystuje się zalet SEM w porównaniu z innymi metodami analizy danych.

Co zatem widzę jako główne zalety podejścia SEM? Te duże, moim zdaniem, to:

(1) Modelowanie zmiennych ukrytych : SEM pozwala użytkownikom badać relacje strukturalne (wariancje, kowariancje / korelacje, regresje, różnice w średnich grupach) między nieobserwowanymi zmiennymi ukrytymi, które są zasadniczo wspólną kowariancją między grupą zmiennych (np. Elementy z niepokoju zmierzyć, jakich mogą użyć Twoi uczniowie).

Największą zaletą analizy ukrytych zmiennych (np. Utajonego lęku) w porównaniu do obserwowanego wyniku konstruktu (np. Średniej pozycji lękowych) jest to, że utajone zmienne są wolne od błędów - zmienne utajone powstają ze wspólnej kowariancji, a błąd jest teoretycznie przypisywany do kowariancji z niczym. Przekłada się to na zwiększoną moc statystyczną, ponieważ użytkownicy nie muszą się już martwić niepewnością pomiaru tłumiącą efekty, które próbują wymodelować.

Innym, bardziej zaniżonym, powodem, dla którego warto rozważyć użycie SEM, jest w niektórych przypadkach bardziej poprawny sposób konstruowania naszych teorii na temat konstruktów. Gdyby na przykład twoi uczniowie stosowali trzy różne miary lęku, czy nie byłoby lepiej zrozumieć przyczyny / konsekwencje tego, co te trzy miary mają wspólnego - przypuszczalnie lęk - w ramach SEM, zamiast uprzywilejować jakiekolwiek zwłaszcza jeden środek jak w miarę niepokoju?

(2) Modelowanie wielu zmiennych zależnych: Nawet jeśli ktoś nie będzie używał SEM do modelowania zmiennych ukrytych, może to być nadal przydatne jako struktura do jednoczesnej analizy wielu zmiennych wynikowych w jednym modelu. Na przykład, być może twoi uczniowie są zainteresowani zbadaniem, w jaki sposób te same predyktory są powiązane z wieloma różnymi klinicznie istotnymi wynikami (np. Lęk, depresja, samotność, samoocena itp.). Po co uruchamiać cztery osobne modele (zwiększając współczynnik błędów typu I), skoro można po prostu uruchomić jeden model dla wszystkich czterech interesujących wyników? Jest to również powód do korzystania z SEM w kontaktach z pewnymi typami danych zależnych, w których wielu zależnych respondentów może dawać zarówno prognozy, jak i wyniki (np. Dane dynamiczne; patrz Kenny, Kashy i Cook, 2006,

(3) Modelowe założenia, zamiast ich : Przy wielu innych podejściach do analizy danych (np. ANOVA, korelacja, regresja), przyjmujemy mnóstwo założeń dotyczących właściwości danych, z którymi mamy do czynienia - takich jak jednorodność wariancja / homoskedastyczność. SEM (zwykle w połączeniu z podejściem zmiennej utajonej) umożliwia użytkownikom jednoczesne modelowanie parametrów wariancji obok średnich i / lub korelacji / ścieżek regresji. Oznacza to, że użytkownicy mogą zacząć teoretyzować i testować hipotezy dotyczące zmienności, oprócz średnich różnic / kowariancji, zamiast traktować zmienność jako irytującą, późniejszą refleksję związaną z założeniami.

Innym sprawdzalnym założeniem przy porównywaniu średnich poziomów grupy dla pewnej zmiennej jest to, czy zmienna faktycznie oznacza to samo dla każdej grupy - określana jako niezmienność pomiaru w literaturze SEM (patrz Vandenberg i Lance, 2000, dla przeglądu tego procesu ). Jeśli tak, to porównania średnich poziomów tej zmiennej są poprawne, ale jeśli grupy mają znacznie inne rozumienie tego, czym jest, porównanie średnich poziomów między grupami jest wątpliwe. Przez cały czas domyślnie przyjmujemy to szczególne założenie w badaniach przy użyciu porównań grupowych.

A następnie przyjmuje się założenie, że gdy uśredniasz lub sumujesz wyniki pozycji (np. Na podstawie pomiaru lęku) w celu utworzenia indeksu zagregowanego, to każdy element jest równie dobrą miarą bazowej konstrukcji (ponieważ każdy element jest równo ważony w uśrednianie / sumowanie). SEM eliminuje to założenie, gdy używane są zmienne ukryte, poprzez oszacowanie różnych wartości obciążenia czynnikowego (powiązanie między elementem a zmienną ukrytą) dla każdego elementu.

Na koniec można zarządzać innymi założeniami dotyczącymi danych (np. Normalności), choć nadal istotnymi dla SEM, np. Za pomocą „solidnych” estymatorów, patrz Finney i DiStefano, 2008), gdy dane nie spełniają pewne kryteria (niski poziom skośności i kurtozy).

(4) Określanie ograniczeń modelu: Ostatnim ważnym powodem, moim zdaniem, do rozważenia zastosowania SEM, jest to, że bardzo łatwo przetestować określone hipotezy dotyczące modelu danych, wymuszając („ograniczanie” w kategoriach SEM) pewne ścieżki w modelu aby przyjąć określone wartości i zbadać, w jaki sposób wpływa to na dopasowanie modelu do danych. Niektóre przykłady obejmują: (A) ograniczenie ścieżki regresji do zera, aby sprawdzić, czy jest to konieczne w modelu; (B) zawierający wiele ścieżek regresji, które mają być równe pod względem wielkości (np. Czy siła asocjacyjna dla jakiegoś predyktora jest w przybliżeniu równa dla lęku i depresji?); (C) ograniczenie parametrów pomiarowych niezbędnych do oceny niezmienności pomiaru (opisane powyżej); (D) ograniczenie ścieżki regresji do równej siły między dwiema różnymi grupami,

Jakie są wymagania dotyczące danych dla SEM?

Wymagania dotyczące danych dla SEM są dość skromne; potrzebujesz odpowiedniej wielkości próby i aby dane spełniały założenia wybranego przez ciebie estymatora modelu (typowe jest maksymalne prawdopodobieństwo).

Trudno jest podać uniwersalne zalecenie dotyczące wielkości próby. Na podstawie kilku prostych symulacji Little (2013) sugeruje, że w przypadku bardzo prostych modeli wystarczające może być 100-150 obserwacji, ale potrzeby dotyczące wielkości próby będą rosły wraz ze wzrostem złożoności modeli i / lub niezawodnością / poprawnością zmiennych używanych w model maleje. Jeśli złożoność modelu stanowi problem, możesz rozważyć zestawienie wskaźników ukrytych zmiennych, ale nie wszystkie są na pokładzie tego podejścia (Little, Cunningham, Shahar i Widaman, 2002). Ale ogólnie rzecz biorąc, wszystkie inne są równe, większe próbki (staram się o minimum 200 w moich własnych badaniach) są lepsze.

Jeśli chodzi o spełnienie założeń wybranego estymatora, zwykle jest to dość łatwe do oszacowania (np. Spójrz na wartości skośności i kurtozy dla estymatora maksymalnego prawdopodobieństwa). I nawet jeśli dane odbiegają od założonych właściwości, w badaniu można rozważyć zastosowanie „solidnego” estymatora (Finney i DiStefano, 2008) lub estymatora, który zakłada inny rodzaj danych (np. Estymator kategoryczny, taki jak najmniej ważona po przekątnej kwadraty).

Alternatywy dla SEM do analizy danych?

Jeśli badacz nie zamierza skorzystać z korzyści płynących z podejścia SEM, które podkreśliłem powyżej, zalecałbym trzymanie się bardziej prostej i dostępnej wersji tej konkretnej analizy (np. -testy, ANOVA, analiza korelacji, modele regresji [w tym modele mediacji, moderacji i warunkowe]. Czytelnicy są bardziej zaznajomieni z nimi i dlatego łatwiej je rozumieją. Po prostu nie warto mylić czytelników z szczegółami SEM, jeśli zasadniczo używasz SEM do tego samego efektu, co prostsze podejście analityczne.

Porady dla naukowców rozważające zastosowanie SEM?

Dla nowicjuszy w SEM:

Uzyskaj obszerny, łatwo napisany tekst podstawowy SEM. Lubię Beaujean (2014), Brown (2015; wcześniejsze wydanie też jest solidne) i Little (2013; dobre ogólne wprowadzenie, chociaż później skupia się konkretnie na modelach wzdłużnych).
Dowiedz się, jak korzystać z lavaanpakietu dla R(Rosseel, 2012). Jego składnia jest tak łatwa, jak to tylko możliwe w składni SEM, jej funkcjonalność jest wystarczająco szeroka dla potrzeb SEM wielu ludzi (zdecydowanie dla początkujących) i jest bezpłatna. Książka Beaujean stanowi świetne jednoczesne wprowadzenie do SEM i lavaanpakietu.
Regularnie sprawdzaj / używaj CrossValidated i StacksOverflow. Nieoczekiwane rzeczy mogą się zdarzyć przy dopasowywaniu modeli SEM, a są szanse, że wiele dziwnych rzeczy, które możesz doświadczyć, zostały już opisane i są kłopotliwe na stosach.
Jak zauważa Herik, zauważ, że tylko dlatego, że określasz model implikujący związki przyczynowe, nie oznacza to, że SEM pomaga ustalić związek przyczynowy w badaniu przekrojowym / nie eksperymentalnym. Warto również rozważyć zastosowanie SEM do analizy danych z projektów podłużnych i / lub eksperymentalnych.

A dla tych, którzy zaczynają używać SEM:

W pewnym momencie będziesz chciał pokusić się o podanie skorelowanych reszt, chcąc nie chcąc, aby poprawić dopasowanie swojego modelu. Nie rób tego. Przynajmniej nie bez dobrego a priori powodu. Najczęściej lekarstwem jest większa próbka lub prostszy model.
Unikaj stosowania metody identyfikacji zmiennej znacznikowej dla zmiennych utajonych (tj. Ustalania pierwszego obciążenia czynnika na 1). Uprzywilejowuje ten wskaźnik jako „złoty standard” dla twojej ukrytej zmiennej, gdy w większości przypadków nie ma powodu, aby zakładać, że tak jest. Należy pamiętać, że jest to domyślne ustawienie identyfikacji w większości programów.

Bibliografia

Beaujean, AA (2014). Modelowanie zmiennych utajonych przy użyciu R: przewodnik krok po kroku . New York, NY: Routledge.

Brown, TA (2015). Potwierdzająca analiza czynnikowa dla badaczy stosowanych (wydanie drugie). Nowy Jork, NY: Guilford Press.

Finney, SJ i DiStefano, C. (2008). Dane nienormalne i kategoryczne w modelowaniu równań strukturalnych. W GR Hancock i RD Mueller (red.), Modelowanie równań strukturalnych: drugi kurs (str. 269-314). Informacje Wiek Publikowanie.

Kenny, DA, Kashy, DA i Cook, WL (2006). Analiza danych dynamicznych . Nowy Jork, NY: Guilford Press.

Little, TD (2013). Wzdłużne modelowanie równań strukturalnych . Nowy Jork, NY: Guilford Press.

Little, TD, Cunningham, WA, Shahar, G., i Widaman, KF (2002). Paczkować czy nie paczkować: Badanie pytania, ważenie zalet. Modelowanie równań strukturalnych , 9 , 151-173.

Rosseel, Y. (2012). lavaan: pakiet R do modelowania równań strukturalnych. Journal of Statistics Software , 48 (2), 1-36.

Vandenberg, RJ i Lance, CE (2000). Przegląd i synteza literatury dotyczącej niezmienniczości pomiarów: sugestie, praktyki i zalecenia dla badaczy organizacyjnych. Metody badań organizacyjnych , 3 , 4-70.

jsakaluk
źródło

+1 dobra odpowiedź. Z niecierpliwością czekam na wasze inne uwagi!

Momo,

+1 Świetna odpowiedź. Zgadzam się z większością tego, co mówisz. Jedna kolejna kwestia: nie sądzę, aby SEM miał większą moc statystyczną, ponieważ szacuje związek między zmiennymi ukrytymi. Ogólnie sądzę, że jeśli SEM wprowadzi dodatkowe źródło błędów. Występuje zatem zwykły błąd w szacowaniu obserwowanej zmiennej i dodatkowy błąd w szacowaniu wariancji błędu lub innych elementów ukrytej struktury.

Jeromy Anglim,

Odpowiednio utrzymywałbym, że SEM, modelując błąd w unikatowych czynnikach, faktycznie zwiększa moc. Myślę, że najłatwiej można to wykazać, porównując model SEM różnic grupowych w uśpionych środkach z modelem zaobserwowanych średnich różnic te same dane. Jeśli uruchomisz SEM przy użyciu metody kodowania efektów (patrz Little, Slegers i Card, 2006), twoje ukryte środki dla każdej grupy przyjmą tę samą wartość, co zaobserwowane środki. Jednak wariancje dla każdej grupy w modelu SEM będą mniejsze niż w obserwowanym, co spowoduje większy rozmiar efektu, który będzie łatwiejszy do wykrycia.

jsakaluk,

Zdaję sobie sprawę, że powyższy komentarz może nie być najlepszym sposobem na odpowiedź na twoje obawy; jeśli zadasz osobne pytanie dotyczące SEM i włączenia CV, chętnie opublikuję bardziej szczegółową odpowiedź, zawierającą przykładowe wyniki, które mogą być pomocne.

jsakaluk

Czy używać modelowania równań strukturalnych do analizy badań obserwacyjnych w psychologii

Kontekst

Pytanie

Odpowiedzi: