Jak zmniejszyć liczbę elementów za pomocą analizy czynnikowej, spójności wewnętrznej i teorii odpowiedzi na element w połączeniu?

Jestem w trakcie empirycznego opracowywania kwestionariusza i użyję dowolnych liczb w tym przykładzie do zilustrowania. Dla kontekstu opracowuję kwestionariusz psychologiczny mający na celu ocenę wzorców myślenia powszechnie identyfikowanych u osób z zaburzeniami lękowymi. Element może wyglądać tak: „Muszę wielokrotnie sprawdzać piekarnik, ponieważ nie jestem pewien, czy jest wyłączony ”.

Mam 20 pytań (5-punktowy Likert), które mogą składać się z jednego lub dwóch czynników (zauważ, że w rzeczywistości mam 200 pytań składających się z 10 skal, a każda skala może składać się z dwóch czynników). Jestem gotów usunąć około połowy pozycji, pozostawiając 10 pytań dotyczących jednego z dwóch czynników.

Znam eksploracyjną analizę czynnikową (EFA), spójność wewnętrzną (alfa Cronbacha) i krzywe charakterystyki przedmiotu w teorii odpowiedzi na pytanie (IRT). Widzę, jak użyłbym jednej z tych metod, aby określić, które elementy są „gorsze” w dowolnej skali. Rozumiem, że każda metoda odpowiada również na inne pytania, chociaż mogą one prowadzić do podobnych wyników i nie jestem pewien, jakie „pytanie” jest najważniejsze.

Zanim zaczniemy, upewnijmy się, że wiem, co robię z każdą z tych metod indywidualnie.

Korzystając z EFA, zidentyfikowałbym liczbę czynników i usuną elementy, które obciążają najmniej (powiedzmy <.30) na odpowiednim współczynniku lub które krzyżują się znacznie między czynnikami.
Korzystając z wewnętrznej spójności, usuwałbym elementy, które mają gorsze „alfa, jeśli element został usunięty”. Mógłbym to zrobić, zakładając jeden czynnik w mojej skali lub zrobić to po początkowym EFA, aby zidentyfikować liczbę czynników, a następnie uruchomić moją alfa dla każdego czynnika.
Korzystając z IRT, usunęłbym elementy, które nie oceniają współczynnika zainteresowania według ich opcji odpowiedzi (5 Likert). Byłbym obserwatorem krzywych charakterystycznych dla przedmiotu. Zasadniczo szukałbym linii pod kątem 45 stopni od opcji 1 w skali Likerta aż do 5 wzdłuż ukrytego wyniku. Mógłbym to zrobić, zakładając jeden czynnik, lub zrobić to po początkowym
EFA, aby zidentyfikować liczbę czynników, a następnie uruchomić krzywe dla każdego czynnika.

Nie jestem pewien, której z tych metod użyć, aby jak najlepiej określić, które elementy są „najgorsze”. Używam najgorszego w szerokim tego słowa znaczeniu, że przedmiot byłby szkodliwy dla środka, zarówno pod względem niezawodności, jak i ważności, które są dla mnie równie ważne. Prawdopodobnie mogę ich używać łącznie, ale nie jestem pewien, jak to zrobić.

Gdybym miał zacząć od tego, co wiem teraz i dać z siebie wszystko, zrobiłbym następujące rzeczy:

Zrób EFA, aby zidentyfikować liczbę czynników. Usuń także elementy z nieprawidłowymi ładowaniami według ich odpowiednich czynników, ponieważ nie chcę elementów, które ładują się źle, niezależnie od tego, jak zrobiłyby to w innych analizach.
Wykonaj IRT i usuń również złe elementy ocenione na podstawie tej analizy, jeśli takie zostały z EFA.
Po prostu zgłoś Alfa Cronbacha i nie używaj tej miary do usuwania elementów.

Wszelkie ogólne wytyczne będą mile widziane!

Oto także lista szczegółowych pytań, na które być może możesz odpowiedzieć:

Jaka jest praktyczna różnica między usuwaniem elementów opartych na ładunkach czynnikowych a usuwaniem elementów opartych na alfa Chronbacha (zakładając, że używasz tego samego układu współczynników do obu analiz)?
Co powinienem zrobić pierwszy? Zakładając, że robię EFA i IRT z jednym czynnikiem i oba identyfikują różne elementy, które należy usunąć, która analiza powinna mieć priorytet?

Nie jestem twardy w wykonywaniu wszystkich tych analiz, chociaż niezależnie od tego zgłoszę alfa Alfa Chronbacha. Czuję, że zrobienie tylko IRT pozostawiłoby coś, czego brakuje, i podobnie dla EFA.

factor-analysis reliability psychometrics latent-variable validity Behacad
źródło

Jeśli zdecydujesz się uzyskać ważność konstrukcji za pomocą FA, powinieneś oczywiście zacząć od FA (po wyeliminowaniu elementów z „złymi”, np. Zbyt wypaczonymi rozkładami). Twoje zaangażowanie w FA będzie złożone i iteracyjne. Po wyrzuceniu większości „słabych” elementów, uruchom ponownie FA, sprawdź indeks KMO, stopień przywrócenia korelacji, interpretowalność czynników, sprawdź, czy więcej elementów do usunięcia, a następnie uruchom ponownie

ttnphns

Korzystanie z klasycznej teorii testu w połączeniu z teorią odpowiedzi na pytanie to dobra lektura.

chl

Aby usunąć elementy z najwyższej „alfa jeżeli rzecz usunięte” nie najniższych możliwych ...

To jest dziwne! jeśli chodzi o to podstawowe pytanie, nie mamy żadnej znanej odpowiedzi w ciągu 3 lat.

WhiteGirl

Odpowiedzi:

Nie mam żadnych cytatów, ale proponuję:

Zeroth: Jeśli to możliwe, podziel dane na zestaw szkoleniowy i testowy.

Najpierw zrób EFA. Spójrz na różne rozwiązania, aby zobaczyć, które z nich mają sens, w oparciu o twoją wiedzę na temat pytań. Musiałbyś to zrobić przed alfą Cronbacha, inaczej nie będziesz wiedział, które przedmioty wchodzą w który czynnik. (Uruchamianie alfa na WSZYSTKICH przedmiotach prawdopodobnie nie jest dobrym pomysłem).

Następnie uruchom alfa i usuń elementy, które mają znacznie gorsze korelacje niż pozostałe w każdym czynniku. Nie ustawiłbym arbitralnej granicy, szukałem takich, które byłyby znacznie niższe niż inne. Sprawdź, czy ich usunięcie ma sens.

Na koniec wybierz z IRT przedmioty o różnych poziomach trudności.

Następnie, jeśli to możliwe, powtórz to na zestawie testowym, ale bez eksploracji. Oznacza to, jak dobrze wynik znaleziony na zestawie treningowym działa na zestawie testowym.

Peter Flom - Przywróć Monikę
źródło

Dziękuję za odpowiedź. Jest to zgodne z kierunkiem, o którym myślałem, chociaż nie jestem pewien, czy będę miał przypadki, aby podzielić dane. Ponadto, ponieważ przedmioty są w 5-punktowej skali Likerta, spodziewam się, że większość z nich, a przynajmniej te „dobre”, będą miały podobną trudność.

Behacad,

Na pewno znasz dobre referencje :-) Droczyłem się z Tobą w następujących kwestiach (ponieważ ten wątek prawdopodobnie posłuży jako odniesienie do przyszłych pytań). (a) Zwykle usuwanie pozycji na podstawie alfa Cronbacha odbywa się bez uwzględnienia schematu walidacji krzyżowej. Oczywiście jest to tendencyjne podejście, ponieważ te same osoby są wykorzystywane do oszacowania obu miar. (b) Inną alternatywą jest bazowa korelacja pozycji / skali poprzez uwzględnienie wyniku spoczynkowego (tj. wyniku sumowego bez uwzględnienia rozpatrywanego elementu): czy uważasz, że w tym przypadku ma to znaczenie? (...)

chl.

(...) (c) Wreszcie, modele IRT są często używane do odrzucania przedmiotów (w duchu oczyszczania skali ) w oparciu o statystyki dopasowania przedmiotów i tym podobne. Jakie jest twoje zdanie na temat tego podejścia?

chl

Do Twojej wiadomości Prawdopodobnie mogę znaleźć odniesienia do każdej z tych metod osobno, ale byłbym wdzięczny za wszelkie potencjalne odniesienia do zastosowania dowolnej z tych metod w połączeniu. Wszelkie referencje byłyby świetne, naprawdę! Wiesz (i prawdopodobnie są!) Recenzenci ...

Behacad,

@chl Mogłem wykopać referencje, ale nie znam ich z góry głowy. W punktach a) ib) prawdopodobnie ma to większe znaczenie, niż większość ludzi sądzi; ktoś powinien przeprowadzić symulację. na c) Minęło trochę czasu odkąd zrobiłem IRT (mój stopień naukowy jest z psychometrii, ale to było dawno temu).

Peter Flom - Przywróć Monikę

Wszystkie trzy z twoich sugerowanych kryteriów mogą być faktycznie wykonane w IRT, a dokładniej wielowymiarowej IRT. Jeśli twoja próbka jest dość duża, prawdopodobnie byłby to spójny sposób obchodzenia się z nią dla każdej podskali. W ten sposób możesz uzyskać korzyści z IRT do niezależnego modelowania przedmiotu (użycie nominalnych modeli dla niektórych przedmiotów, uogólnione częściowe zaliczenie lub stopniowanie dla innych, lub, jeśli to możliwe, nawet skonfigurowanie skal ratingowych, aby pomóc interpretować elementy wielomianowe w bardziej oszczędny sposób).

$\theta$

Możesz spróbować usunąć elementy, które nie są zgodne z jednowymiarowymi wymaganiami większości programów IRT, ale niekoniecznie poleciłbym to, jeśli wpłynie to na teoretyczną reprezentację dostępnych konstrukcji. W zastosowaniach empirycznych zwykle lepiej jest dopasować nasze modele do naszej teorii, a nie na odwrót. Również w tym przypadku modele dwufazowe / dwupoziomowe są odpowiednie, ponieważ chcesz uwzględnić wszystkie możliwe pozycje, jednocześnie uwzględniając wielowymiarowość w systematyczny i teoretycznie pożądany sposób.

filchalmers
źródło

Dzięki! Jak mierzysz wiarygodność empiryczną w IRT? Czy to to samo co informacja?

Behacad

\hat{θ}

$\hat{\theta}$

r_{x x} = T / (T + E)

$r_{xx} = T / (T + E)$

θ

$\theta$ mirtfscores()sirtTAM

@ philchalmers, proszę spojrzeć na pytanie, czy możesz na nie odpowiedzieć.

WhiteGirl