Jestem w trakcie empirycznego opracowywania kwestionariusza i użyję dowolnych liczb w tym przykładzie do zilustrowania. Dla kontekstu opracowuję kwestionariusz psychologiczny mający na celu ocenę wzorców myślenia powszechnie identyfikowanych u osób z zaburzeniami lękowymi. Element może wyglądać tak: „Muszę wielokrotnie sprawdzać piekarnik, ponieważ nie jestem pewien, czy jest wyłączony ”.
Mam 20 pytań (5-punktowy Likert), które mogą składać się z jednego lub dwóch czynników (zauważ, że w rzeczywistości mam 200 pytań składających się z 10 skal, a każda skala może składać się z dwóch czynników). Jestem gotów usunąć około połowy pozycji, pozostawiając 10 pytań dotyczących jednego z dwóch czynników.
Znam eksploracyjną analizę czynnikową (EFA), spójność wewnętrzną (alfa Cronbacha) i krzywe charakterystyki przedmiotu w teorii odpowiedzi na pytanie (IRT). Widzę, jak użyłbym jednej z tych metod, aby określić, które elementy są „gorsze” w dowolnej skali. Rozumiem, że każda metoda odpowiada również na inne pytania, chociaż mogą one prowadzić do podobnych wyników i nie jestem pewien, jakie „pytanie” jest najważniejsze.
Zanim zaczniemy, upewnijmy się, że wiem, co robię z każdą z tych metod indywidualnie.
Korzystając z EFA, zidentyfikowałbym liczbę czynników i usuną elementy, które obciążają najmniej (powiedzmy <.30) na odpowiednim współczynniku lub które krzyżują się znacznie między czynnikami.
Korzystając z wewnętrznej spójności, usuwałbym elementy, które mają gorsze „alfa, jeśli element został usunięty”. Mógłbym to zrobić, zakładając jeden czynnik w mojej skali lub zrobić to po początkowym EFA, aby zidentyfikować liczbę czynników, a następnie uruchomić moją alfa dla każdego czynnika.
Korzystając z IRT, usunęłbym elementy, które nie oceniają współczynnika zainteresowania według ich opcji odpowiedzi (5 Likert). Byłbym obserwatorem krzywych charakterystycznych dla przedmiotu. Zasadniczo szukałbym linii pod kątem 45 stopni od opcji 1 w skali Likerta aż do 5 wzdłuż ukrytego wyniku. Mógłbym to zrobić, zakładając jeden czynnik, lub zrobić to po początkowym
EFA, aby zidentyfikować liczbę czynników, a następnie uruchomić krzywe dla każdego czynnika.
Nie jestem pewien, której z tych metod użyć, aby jak najlepiej określić, które elementy są „najgorsze”. Używam najgorszego w szerokim tego słowa znaczeniu, że przedmiot byłby szkodliwy dla środka, zarówno pod względem niezawodności, jak i ważności, które są dla mnie równie ważne. Prawdopodobnie mogę ich używać łącznie, ale nie jestem pewien, jak to zrobić.
Gdybym miał zacząć od tego, co wiem teraz i dać z siebie wszystko, zrobiłbym następujące rzeczy:
- Zrób EFA, aby zidentyfikować liczbę czynników. Usuń także elementy z nieprawidłowymi ładowaniami według ich odpowiednich czynników, ponieważ nie chcę elementów, które ładują się źle, niezależnie od tego, jak zrobiłyby to w innych analizach.
- Wykonaj IRT i usuń również złe elementy ocenione na podstawie tej analizy, jeśli takie zostały z EFA.
- Po prostu zgłoś Alfa Cronbacha i nie używaj tej miary do usuwania elementów.
Wszelkie ogólne wytyczne będą mile widziane!
Oto także lista szczegółowych pytań, na które być może możesz odpowiedzieć:
Jaka jest praktyczna różnica między usuwaniem elementów opartych na ładunkach czynnikowych a usuwaniem elementów opartych na alfa Chronbacha (zakładając, że używasz tego samego układu współczynników do obu analiz)?
Co powinienem zrobić pierwszy? Zakładając, że robię EFA i IRT z jednym czynnikiem i oba identyfikują różne elementy, które należy usunąć, która analiza powinna mieć priorytet?
Nie jestem twardy w wykonywaniu wszystkich tych analiz, chociaż niezależnie od tego zgłoszę alfa Alfa Chronbacha. Czuję, że zrobienie tylko IRT pozostawiłoby coś, czego brakuje, i podobnie dla EFA.
Odpowiedzi:
Nie mam żadnych cytatów, ale proponuję:
Zeroth: Jeśli to możliwe, podziel dane na zestaw szkoleniowy i testowy.
Najpierw zrób EFA. Spójrz na różne rozwiązania, aby zobaczyć, które z nich mają sens, w oparciu o twoją wiedzę na temat pytań. Musiałbyś to zrobić przed alfą Cronbacha, inaczej nie będziesz wiedział, które przedmioty wchodzą w który czynnik. (Uruchamianie alfa na WSZYSTKICH przedmiotach prawdopodobnie nie jest dobrym pomysłem).
Następnie uruchom alfa i usuń elementy, które mają znacznie gorsze korelacje niż pozostałe w każdym czynniku. Nie ustawiłbym arbitralnej granicy, szukałem takich, które byłyby znacznie niższe niż inne. Sprawdź, czy ich usunięcie ma sens.
Na koniec wybierz z IRT przedmioty o różnych poziomach trudności.
Następnie, jeśli to możliwe, powtórz to na zestawie testowym, ale bez eksploracji. Oznacza to, jak dobrze wynik znaleziony na zestawie treningowym działa na zestawie testowym.
źródło
Wszystkie trzy z twoich sugerowanych kryteriów mogą być faktycznie wykonane w IRT, a dokładniej wielowymiarowej IRT. Jeśli twoja próbka jest dość duża, prawdopodobnie byłby to spójny sposób obchodzenia się z nią dla każdej podskali. W ten sposób możesz uzyskać korzyści z IRT do niezależnego modelowania przedmiotu (użycie nominalnych modeli dla niektórych przedmiotów, uogólnione częściowe zaliczenie lub stopniowanie dla innych, lub, jeśli to możliwe, nawet skonfigurowanie skal ratingowych, aby pomóc interpretować elementy wielomianowe w bardziej oszczędny sposób).
Możesz spróbować usunąć elementy, które nie są zgodne z jednowymiarowymi wymaganiami większości programów IRT, ale niekoniecznie poleciłbym to, jeśli wpłynie to na teoretyczną reprezentację dostępnych konstrukcji. W zastosowaniach empirycznych zwykle lepiej jest dopasować nasze modele do naszej teorii, a nie na odwrót. Również w tym przypadku modele dwufazowe / dwupoziomowe są odpowiednie, ponieważ chcesz uwzględnić wszystkie możliwe pozycje, jednocześnie uwzględniając wielowymiarowość w systematyczny i teoretycznie pożądany sposób.
źródło
mirt
fscores()
sirt
TAM