Suma ocen ratingowych vs. szacunkowe wyniki czynnikowe?

12

Byłbym zainteresowany otrzymywaniem sugestii, kiedy używać „ wyników czynnikowych ” zamiast zwykłej sumy wyników podczas konstruowania skal. Tj. „Wyrafinowane” w porównaniu z „nierafinowanymi” metodami oceny czynnika. Od DiStefano i in. (2009; pdf ), podkreślenie dodane:

Istnieją dwie główne klasy metod obliczania wyniku czynnikowego: wyrafinowane i nierafinowane. Nierafinowane metody są stosunkowo prostymi, kumulatywnymi procedurami zapewniającymi informacje o umiejscowieniu poszczególnych osób w rozkładzie czynników. Prostota nadaje się do niektórych atrakcyjnych cech, tj. Nierafinowane metody są łatwe do obliczenia i interpretacji. Udoskonalone metody obliczeniowe tworzą wyniki czynnikowe przy użyciu bardziej wyrafinowanych i technicznych metod. Są one dokładniejsze i bardziej złożone niż nierafinowane metody i zapewniają oszacowania, które są ustandaryzowanymi wynikami.

Moim zdaniem, jeśli celem jest stworzenie skali, która może być używana w badaniach i ustawieniach, wówczas sensowna jest prosta suma lub średni wynik wszystkich elementów skali. Powiedzmy jednak, że celem jest ocena efektów terapeutycznych programu, a istotny kontrast występuje w próbie - leczenie w porównaniu z grupą kontrolną. Czy jest jakiś powód, dla którego moglibyśmy preferować wyniki czynnikowe niż skalować sumy lub średnie?

Aby być konkretnym na temat alternatyw, weź ten prosty przykład:

library(lavaan)
library(devtools)

# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
  gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
  source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
  head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1  3  4  3  4  3  3  4  4  3
# 2  2  1  2  2  4  3  2  1  3
# 3  1  3  4  4  4  2  1  2  2
# 4  1  2  1  2  1  2  1  3  2
# 5  3  3  4  4  1  1  2  4  1
# 6  2  2  2  2  2  2  1  1  1

# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf

# non-refined -----------------------------------------------------------------
  mydata$sumScore <- rowSums(mydata[, 1:9])
      mydata$avgScore <- rowSums(mydata[, 1:9])/9
  hist(mydata$avgScore)

# refined ---------------------------------------------------------------------
  model <- '
            tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
           '
  fit <- sem(model, data = mydata, meanstructure = TRUE,
             missing = "pairwise", estimator = "WLSMV")
  factorScore <- predict(fit)
  hist(factorScore[,1])
Eric Green
źródło
Usunąłem „interwencje” z tytułu, aby pytanie brzmiało bardziej ogólnie, a ponieważ interwencje prawdopodobnie nie mają wyjątkowego, specyficznego wpływu na rozróżnienie między dwoma rodzajami liczenia konstruktów. Jeśli nie wyrażasz zgody, możesz cofnąć moją edycję.
ttnphns
1
They are more exactTen dodatkowy nacisk nie powinien odwracać uwagi od faktu, że nawet wyniki czynników są nieuchronnie niedokładne („niedookreślone”).
ttnphns
Zobacz także podobne pytanie: stats.stackexchange.com/q/31967/3277 .
ttnphns
Myślę, że „interwencje” są istotne jako szczególny przypadek użycia, ale nie muszą być w tytule. Podkreśliłem kluczową kwestię w pytaniu. Jeśli chodzi o nacisk na „bardziej dokładny”, byłem ciekawy myśli o tym punkcie, biorąc pod uwagę spostrzeżenie, że wyniki czynników są nieokreślone. Dzięki za linki do innych pytań.
Eric Green
"more exact". Spośród liniowo obliczonych wyników czynnikowych metoda regresji jest najbardziej „dokładna” w sensie „najbardziej skorelowana z nieznanymi prawdziwymi wartościami czynników”. Tak więc, bardziej dokładne (w ramach liniowego podejścia algebraicznego), ale nie do końca dokładne.
ttnphns

Odpowiedzi:

6

Sam zmagałem się z tym pomysłem w niektórych bieżących projektach. Myślę, że musisz zadać sobie pytanie, co jest tutaj szacowane. Jeśli pasuje model jednoczynnikowy, to oceny czynnikowe szacują czynnik ukryty. Prosta suma lub średnia twoich zmiennych przejawia się w oszacowaniu czegoś innego, chyba że każda obserwacja obciąża czynnik równo, a niepowtarzalność jest również taka sama. I to coś innego prawdopodobnie nie jest przedmiotem wielkiego zainteresowania teoretycznego.

Jeśli więc pasuje model jednoskładnikowy, prawdopodobnie dobrze jest wykorzystać wyniki czynnikowe. Rozumiem twój punkt widzenia na temat porównywalności między badaniami, ale myślę, że w ramach jednego badania wyniki czynników mają wiele do powiedzenia.

Interesujące staje się to, gdy model jednoczynnikowy nie pasuje, albo dlatego, że stosuje się model dwuskładnikowy (lub wyższy), albo dlatego, że struktura kowariancji jest bardziej skomplikowana niż przewiduje model czynnikowy. Dla mnie pytanie brzmi: czy prosta suma zmiennych odnosi się do czegoś rzeczywistego. Jest to szczególnie prawdziwe, jeśli dane mają więcej niż jeden wymiar. W praktyce często zdarza się, że masz wiele powiązanych ze sobą zmiennych (być może pozycje w ankiecie), przy czym jedna lub dwie z nich różnią się znacznie od innych. Możesz powiedzieć „do piekła z tym” i wziąć średnią wszystkiego, bez względu na to, co to znaczy. Lub możesz przejść z wynikami czynnikowymi. Jeśli dopasujesz model jednoczynnikowy, zwykle dzieje się tak, że analiza czynnikowa obniży wartość mniej użytecznych zmiennych (a przynajmniej tych zmiennych, które naprawdę należą do wyniku drugiego czynnika). W efekcie wykrywa je jako należące do innego wymiaru i ignoruje je.

Uważam więc, że wynik czynnikowy może w pewnym stopniu przyciąć dane, aby uzyskać coś bardziej jednowymiarowego niż na początku. Ale nie mam na to odniesienia i wciąż próbuję wymyślić w mojej własnej pracy, czy podoba mi się to podejście. Dla mnie wielkim niebezpieczeństwem jest zbyt duże przerzucanie wyników do innego modelu z tymi samymi danymi. Wyniki są już odpowiedzią na pytanie optymalizacyjne, więc gdzie to pozostawia resztę analizy? Nienawidzę myśleć.

Ale czy na koniec dnia suma lub suma zmiennych rzeczywiście ma sens, jeśli coś takiego jak model jednoskładnikowy nie ma zastosowania?

Wiele z tych pytań nie powstałoby, gdyby ludzie zaprojektowali na początek lepsze skale.

Placidia
źródło
Doceniam twoje komentarze, @Placidia. Dajesz trochę przejrzystości, przypominając nam o większym bałaganie! Myślę, że jest to interesujący punkt do rozważenia: „Jeśli model czynnikowy pasuje, to wyniki czynnikowe szacują czynnik utajony. Prosta suma lub średnia z twoich zmiennych manifestacyjnych szacuje coś innego, chyba że każda obserwacja obciąży czynnik równomiernie, a wyjątkowości są również takie same. I że coś innego prawdopodobnie nie jest przedmiotem wielkiego zainteresowania teoretycznego. ”
Eric Green,
+1 za bardzo przemyślaną odpowiedź. Kilka uwag do dodania: 1) w odniesieniu do porównywalności między badaniami, ważne jest, aby zdawać sobie sprawę, że w przeciwieństwie do ładunków składowych - które mogą się nieco zmienić w odpowiedzi na zmienne uwzględnione / wykluczone z modelu - powszechne ładunki czynnikowe są oszacowaniami parametrów. Następnie powinny powielać się (w ramach błędu próbkowania) z badania na badanie, a zatem również wyniki czynników. 2) Jeśli
obawiasz się
1
... ponieważ uważam, że jest to strategia omówiona w DiStefanno i in. glin. papier do oceny, czy wyniki czynnikowe można „zaufać”. I wreszcie 3) jeśli twoim celem, jak opisuje Placidia, jest przeanalizowanie czegoś, co jest w dużej mierze jednowymiarowe, możesz rozważyć podejście analizy dwuskładnikowej, które, jak rozumiem, najpierw wyodrębnia wspólny czynnik, na który ładuje się każda zmienna, a następnie kolejne ortogonalne wyodrębniono czynniki dla podzbiorów zmiennych, które pozornie odzwierciedlają najważniejsze wyróżniające się czynniki, poza wspólnym wymiarem wiążącym wszystkie zmienne razem.
jsakaluk
Placidia, w ostatniej edycji odpowiedzi, wielokrotnie ograniczasz się do wyrażenia one-factor model. Zastanawiam się tylko dlaczego. Czy mówisz, że w modelu 2-czynnikowym wyniki czynników estimate the latent factorjuż nie są ? Dlaczego tak? A także, w jaki sposób definiujecie „model jednoskładnikowy” w kontekście opracowywanego kwestionariusza (prawdopodobny kontekst Q): czy kwestionariusz jest jednoczynnikowy / skalowany, czy też każdy uwzględniony element jest liczony jako należący ściśle do jednego czynnika /skala? Czy mógłbyś to wyjaśnić?
ttnphns
Chciałem uniknąć potencjalnego nieporozumienia. Jeśli wierzysz w dwuskładnikowy model, prawdopodobnie użycie sum podsumowujących byłoby niemożliwe. Potrzebujesz dwóch podsumowań dla dwóch wymiarów w danych. Chciałem wyjaśnić, że moja odpowiedź dotyczyła wyboru między statystyką podsumowującą a wynikiem czynnikowym modelu jednoskładnikowego. Twierdzę, że ocena jednoczynnikowa może być przydatna, nawet jeśli model jest fałszywy. Sugestia @ jsakaluka dotycząca dopasowania modelu wieloczynnikowego i wyboru pierwszego czynnika jest również możliwa, aw niektórych przypadkach może być lepsza.
Placidia
4

Sumowanie lub uśrednianie elementów ładowanych przez wspólny czynnik jest tradycyjnym sposobem obliczania wyniku dla konstruktu (konstrukcja reprezentująca ten czynnik). Jest to najprostsza wersja „grubej metody” obliczania współczynników obliczeniowych ; główny punkt metody polega na wykorzystaniu ładunków czynnikowych jako wag punktowych. Podczas gdy wyrafinowane metody obliczania wyników wykorzystują specjalnie oszacowane współczynniki wyników (obliczone na podstawie obciążeń) jako wagi.

Ta odpowiedź nie „powszechnie sugeruje, kiedy należy zastosować [wyrafinowane] oceny czynnikowe w porównaniu z zwykłą sumą wyników punktowych”, co jest ogromną dziedziną, ale skupia się na pokazaniu pewnych konkretnych oczywistych implikacji związanych z preferowaniem jednego sposobu liczenia konstruktu nad drugim droga.

Rozważ prostą sytuację z pewnym współczynnikiem i dwoma ładowanymi przez niego elementami. Zgodnie z przypisem 1 tutaj wyjaśniając, jak współczynnik regresji wyniki obliczane są współczynniki zdobędzie czynnik b 1 i b 2 do obliczania współczynnika wyniki z F pochodzą zfab1b2)fa

,s1=b1r11+b2)r12

,s2)=b1r12+b2)r22

gdzie i s 2 są korelacjami między współczynnikiem a pozycjami - ładunki czynnikowe; r 12 to korelacja między pozycjami. W b współczynniki są co odróżnić wyniki od prostych czynników, nieważoną sumę wyników poz. Gdy bowiem obliczasz tylko sumę (lub średnią), celowo ustawiasz oba b s na równe. Podczas gdy w „wyrafinowanych” wynikach czynnikowych b s pochodzą z powyższych równań i zwykle nie są równe.s1s2)r12bbb

Dla uproszczenia, a ponieważ analiza czynnikowa jest często przeprowadzana na korelacjach, weźmy jako korelacje, a nie kowariancje. Następnie r 11 i r 22 są jednostkami i można je pominąć. Następnie,rr11r22

,b1=s2)r12-s1r122)-1

,b2)=s1r12-s2)r122)-1

stąd b1-b2)=-(r12+1)(s1-s2))r122)-1.

Jesteśmy zainteresowani tym, jak ten potencjał nierówność między s zależy od nierówności Wśród obciążeniach s s i korelacji R 12 . Funkcja b 1 - b 2 jest pokazana poniżej na wykresie powierzchniowym, a także na wykresie mapy cieplnej.bsr12b1-b2)

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

s1-s2)=0bs1-s2)b1-b2)r12

b

s1=.70s2)=.45.25

do. Jeśli są silnie skorelowane, słabiej załadowany przedmiot jest młodszym duplikatem drugiego. Jaki jest powód, aby liczyć ten słabszy wskaźnik / objaw w obecności jego silniejszego substytutu? Bez większego powodu. I dopasowują się do tego współczynniki czynników (podczas gdy proste sumowanie nie). Zauważ, że w kwestionariuszu wieloczynnikowym „słabiej załadowany przedmiot” jest często przedmiotem innego czynnika, ładowanym tam wyżej; podczas gdy w obecnym czynniku ten element zostaje ograniczony, jak widzimy teraz, w obliczaniu wyników czynników, - i to dobrze to służy.

b. Ale jeśli przedmioty, choć ładowane jak poprzednio nierównomiernie, nie korelują tak silnie, to są dla nas różnymi wskaźnikami / objawami. I można je policzyć „dwa razy”, tj. Po prostu zsumowane. W tym przypadku oceny czynnikowe starają się uszanować słabszy element w zakresie, w jakim jego ładowanie wciąż pozwala, ponieważ jest to inny przykład wykonania współczynnika.

za. Dwa elementy można również policzyć dwukrotnie, tzn. Po prostu zsumować, ilekroć mają one podobne, wystarczająco wysokie ładunki według współczynnika, bez względu na korelację między tymi elementami. (Oceny czynnikowe zwiększają wagę obu przedmiotów, gdy nie są zbyt mocno skorelowane, jednak wagi są równe.) Wydaje się, że nie jest nieuzasadnione, że zwykle tolerujemy lub dopuszczamy dość powielone przedmioty, jeśli wszystkie są mocno obciążone. Jeśli ci się to nie podoba (czasem możesz) możesz zawsze ręcznie usunąć duplikaty z tego czynnika.

wprowadź opis zdjęcia tutaj

Zatem przy obliczaniu (udoskonalonych) wyników czynnikowych (przynajmniej metodą regresji) widoczne są intrygidogadaj się / wypychaj” wśród zmiennych tworzących konstrukt, w ich wpływie na wyniki . Równie silne wskaźniki tolerują się nawzajem, tak jak robią to również niespójnie silne, niezbyt skorelowane wskaźniki. Występuje „zamknięcie” słabszego wskaźnika silnie skorelowanego z silniejszymi wskaźnikami. Proste dodawanie / uśrednianie nie ma intrygi „wypychania słabych duplikatów”.

Zobacz także odpowiedź, która teoretycznie ostrzega przed tym czynnikiem, a jest raczej „esencją wewnątrz” niż dużą kolekcją lub stertą „jego” zjawisk indykatywnych. Dlatego ślepe sumowanie przedmiotów - nie biorąc pod uwagę ich ładunków ani korelacji - jest potencjalnie problematyczne. Z drugiej strony czynnik, zgodnie z punktacją, może być tylko pewnego rodzaju sumą jego elementów, a więc wszystko polega na lepszej koncepcji wag sumy.


Rzućmy też okiem na brak metody zgrubnej lub sumowania bardziej ogólnie i abstrakcyjnie .

bza

fa^jajafajaX1X2)za1za2)faUb

fa^ja=b1X1ja+b2)X2)ja=b1(faja+U1ja)+b2)(faja+U2)ja)=(b1+b2))faja+b1U1ja+b2)U2)ja

b1U1ja+b2)U2)jafa^jafajaUfa^fabvar[b1U1ja+b2)U2)ja]fa^fabzaXfa^fa

zabfafa^

fa^ja=za1X1ja+za2)X2)ja= ... =(za1+za2))faja+za1U1ja+za2)U2)ja

bzazaza

ttnphns
źródło
Dzięki, @ttnphns, za pomocną odpowiedź. Ma dla mnie sens, że przedmioty o w przybliżeniu jednakowych ładunkach można po prostu zsumować (a). Niestety, nie sądzę, żebym kiedykolwiek spotkał się z sytuacją, w której przy użyciu istniejącej skali, która podobno jest jednowymiarowa, stwierdzam, że przedmioty mają takie same obciążenia.
Eric Green
Byłem więc szczególnie zainteresowany twoim wyjaśnieniem sytuacji, w której obciążenia różnią się, oraz sugestią zbadania korelacji między elementami. Chciałbym wiedzieć, czy masz jakieś praktyczne zasady dotyczące korelacji „silnych” (c) / „nie silnych” (b) lub „wystarczająco wysokich” obciążeń w (a).
Eric Green
1
Na koniec zauważę, że tłem tego pytania jest przytłaczająca norma dyscyplinarna (przynajmniej w psychologii), by używać „zwalidowanych” skal, które wymagają prostych sum (średnich), nawet przy podawaniu skali nowej, nienormowanej populacji. Często celem są porównania między próbami (nawet gdy są nieuzasadnione), co sprawia, że ​​proste sumy są powszechnym podejściem.
Eric Green
Badania interwencyjne są moim zdaniem interesującym przypadkiem użycia, ponieważ porównanie zainteresowań jest w obrębie próby. Wydaje mi się, że bardziej zależy nam na wielkości efektu leczenia niż na „surowej” ocenie obu grup na takcie - szczególnie, gdy używa się skali poza populacją używaną do opracowywania / normowania skali. Jeśli wyniki czynnikowe są „lepsze” w niektórych sytuacjach, warto rzucić proste podejście na korzyść takiego, który ma bardziej konceptualny sens, wiedząc, że ostatecznie chcemy po prostu przyjrzeć się rozmiarom efektów leczenia.
Eric Green
1
(ciąg dalszy) Use "validated" scalesnie wymaga koniecznie prostych sum: jeśli walidacja była dobra (reprezentatywna duża próba, dobre korelacje, prawidłowa liczba czynników, dobre dopasowanie itp.), obliczone wyniki czynników (ich współczynniki) można przyjąć jako normatywne wagi do zastosowania w nowych populacjach. Pod tym względem nie widzę żadnej korzyści w prostej kwocie.
ttnphns