Kontekst
Czytałem o teorii odpowiedzi na przedmioty i uważam ją za fascynującą. Myślę, że rozumiem podstawy, ale zastanawiam się, jak zastosować techniki statystyczne związane z tym obszarem. Poniżej znajdują się dwa artykuły podobne do obszaru, w którym chciałbym zastosować ITR:
Drugi to ten, który naprawdę chciałbym przedłużyć w tym momencie.
Pobrałem bezpłatny program o nazwie jMetrik i wydaje się, że działa świetnie. Myślę, że może to być zbyt podstawowe, jeśli chodzi o IRT, ale nie jestem pewien.
Wiem, że „najlepszy” sposób prawdopodobnie obejmowałby naukę języka R; nie wiem jednak, czy mogę poświęcić czas na pokonanie tej krzywej uczenia się. Zauważ, że mamy fundusze na zakup oprogramowania, ale z tego, co widzę, wydaje się, że nie ma tam żadnych świetnych programów IRT.
pytania
- Co sądzisz o skuteczności jMetrik?
- Jak zasugerowałbyś, żebym kontynuował stosowanie IRT?
- Jakie są najlepsze programy do stosowania IRT?
- Czy ktoś z was regularnie korzysta z IRT? Jeśli tak to jak?
źródło
Odpowiedzi:
Jako dobry start do IRT, zawsze zalecam przeczytanie Wizualnego przewodnika po teorii odpowiedzi na przedmiot .
Ankietę dostępnego oprogramowania można znaleźć na stronie www.rasch.org .
Z mojego doświadczenia wynika, że polecenie Raschtest (i powiązane) polecenie Stata jest bardzo przydatne w większości przypadków, gdy zainteresowany jest dopasowaniem modelu jednoparametrowego. W przypadku bardziej złożonego projektu można skorzystać z GLLAMM ; istnieje dobry przykład działania oparty na książce De Boecka i Wilsona, Explanatory Item and Response Models (Springer, 2004).
Jeśli chodzi o R, istnieje wiele pakietów, które stały się dostępne w ciągu ostatnich pięciu lat, patrz na przykład powiązany Widok zadań CRAN . Większość z nich zostały omówione w specjalnym wydaniu w Journal of Statistical Software (vol. 20, 2007). Jak omówiono w innej odpowiedzi, ltm i eRm pozwalają na dopasowanie szerokiej gamy modeli IRT. Ponieważ opierają się one na innej metodzie szacowania ---
ltm
zastosowali podejście marginalne, podczas gdyeRm
stosują podejście warunkowe --- wybór jednego lub drugiego zależy głównie od modelu, który chcesz dopasować (eRm
nie pasuje do modeli 2- lub 3-parametrowych), a cel pomiaru, który przestrzegasz: warunkowe oszacowanie parametrów osoby ma pewne fajne właściwości psychometryczne, natomiast podejście marginalne pozwala łatwo przejść do modelu z efektami mieszanymi, jak omówiono w dwóch poniższych artykułach :Istnieją również pewne możliwości dopasowania modeli Rasch przy użyciu metod MCMC, patrz np. Pakiet MCMCpack (lub WinBUGS / JAGS , ale patrz Kod BUGS dla teorii odpowiedzi na pytanie , JSS (2010) 36).
Nie mam doświadczenia z SAS do modelowania IRT, więc dam to komuś, kto jest bardziej zaznajomiony z programowaniem SAS.
Inne dedykowane oprogramowanie (najczęściej używane w ocenie edukacyjnej) to: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (nie powołując się na listę już dostępną na wikipedii ). Żadne z nich nie jest darmowe, ale dla niektórych z nich proponowana jest ograniczona czasowo wersja demonstracyjna. Znalazłem jMetrik bardzo ograniczone, gdy próbowałem go (rok temu), a wszystkie funkcje są już dostępne w R. Podobnie ConstructMap można bezpiecznie zastąpiony przez lme4 , jak pokazano na jałmużna połączonego powyżej. Powinienem także wspomnieć
mdltm
(Wielowymiarowe dyskretne modele cech ukrytych) dla mieszanych modeli Rascha autorstwa von Daviera i współpracownika, który ma towarzyszyć książceModele Rasch z rozkładem wielu odmian i mieszanin (Springer, 2007).źródło
ex5.5
Na pierwsze pytanie nie mam żadnych informacji o jMetrick.
Przy stosowaniu IRT (podobnie jak w przypadku każdej innej procedury statystycznej) pierwszym krokiem jest użycie go z jak największą liczbą różnych rodzajów danych. Istnieje krzywa uczenia się, ale uważam, że warto.
Jedną ważną cechą IRT jest rozróżnienie między modelami Rasch i modelami IRT. Zostały opracowane przez różnych ludzi do różnych celów. To powiedziawszy, modele IRT są nadzbiorem modeli Rasch.
Modele Rascha są modelami jednoparametrowymi - zakładają, że wszystkie elementy kwestionariusza w równym stopniu przewidują utajoną cechę.
Modele IRT są jednak dwoma modelami parametrów, które pozwalają pytaniom różnić się pod względem zdolności do dostarczania informacji o zdolności uczestników.
Ponadto istnieją trzy modele parametrów, które są podobne do modeli IRT, z tą różnicą, że pozwalają parametrowi zgadnąć uwzględnić zdolność uczestników do otrzymania właściwej odpowiedzi przez przypadek (jest to bardziej problem dotyczący umiejętności niż testów osobowości).
Ponadto istnieje wielowymiarowy IRT, który ocenia wiele ukrytych zdolności naraz. Nie wiem dużo na ten temat, ale to jest dziedzina, którą zamierzam dowiedzieć się więcej.
Istnieje również rozróżnienie między dychotomicznymi i wielomianowymi metodami IRT. Dychotomiczne modele IRT to te stosowane w testach umiejętności, które mają poprawną i złą odpowiedź. Modele wielomianowe IRT są stosowane w testach osobowości, w których istnieje wiele odpowiedzi, które są jednakowo prawidłowe (w tym sensie, że nie ma poprawnej odpowiedzi).
Osobiście używam R do teorii odpowiedzi na przedmioty. Użyłem dwóch głównych pakietów,
eRm
które pasują tylko do modeli Rasch iltm
które pasują do modeli teorii odpowiedzi na przedmioty (modele dwu- i trzyparametrowe). Oba mają podobną funkcjonalność i oba zapewniają więcej procedur dla dychotomicznych modeli IRT. Nie wiem, czy R jest „najlepszy” dla IRT, nie ma wszystkich dostępnych modeli IRT, ale z pewnością jest najbardziej rozszerzalny, ponieważ można stosunkowo łatwo zaprogramować te modele.Używam IRT prawie wyłącznie do modeli polimotomicznych, w R. Zazwyczaj zaczynam od nieparametrycznych metod IRT (dostarczonych w pakiecie
mokken
) do testowania założeń, a następnie kontynuuję model zgrzytania, dodając więcej złożoności, aby uzyskać dobre dopasowanie.Dla wielowymiarowego IRT istnieje pakiet `mirt ', który zapewnia tę funkcjonalność. Nie korzystałem z niego, więc nie mogę komentować.
Jeśli zainstalujesz te pakiety w R i wywołasz funkcję „winieta („ nazwa-paczki ”)”, powinieneś dostać kilka użytecznych winiet (zdecydowanie dla innych
eRm
imokken
być może dla innych), które mogą okazać się przydatne (w zależności od twojego poziomu matematyka).Wreszcie istnieje wiele dobrych książek na temat modeli rasch i irt. Teoria odpowiedzi na przedmioty dla psychologów jest często stosowana (chociaż nie podobał mi się styl), a dalej w łańcuchu technicznego wyrafinowania istnieją dwa niezwykle wszechstronne i przydatne podręczniki - Podręcznik współczesnej teorii odpowiedzi na pytanie i modeli Rascha: podstawy, najnowsze Opracowania i aplikacje .
Mam nadzieję, że to pomoże.
źródło
jMetrik jest potężniejszy niż myślisz. Jest przeznaczony do pracy operacyjnej, w której badacze potrzebują wielu procedur w jednym zunifikowanym systemie. Obecnie można oszacować parametry IRT dla modeli skali Rasch, częściowego kredytu i ratingu. Umożliwia także łączenie w skali IRT za pomocą Stocking-Lord, Haebara i innymi metodami. Ponieważ zawiera on zintegrowaną bazę danych, dane wyjściowe z oszacowania IRT można wykorzystać do łączenia skali bez potrzeby zmiany plików danych. Co więcej, wszystkie dane wyjściowe mogą być przechowywane w bazie danych do użycia z innymi metodami w jMetrik lub programach zewnętrznych, takich jak R.
Możesz również uruchomić go za pomocą skryptów zamiast GUI. Na przykład poniższy kod będzie (a) importował dane do bazy danych, (b) oceniał elementy za pomocą klucza odpowiedzi, (c) oceniał parametry modelu Rasch i (d) eksportował dane jako plik CSV. Możesz użyć końcowego pliku wyjściowego jako danych wejściowych do R do dalszej analizy lub możesz użyć R, aby połączyć się bezpośrednio z bazą danych jMetrik i pracować z wynikami.
Oprogramowanie jest wciąż na wczesnym etapie rozwoju. Obecnie dodaję eksploracyjną analizę czynników i bardziej zaawansowane modele reakcji na przedmioty. W przeciwieństwie do wielu innych programów IRT, jMetrik jest oprogramowaniem typu open source. wszystkie procedury pomiarowe wykorzystują bibliotekę psychometrii, która jest obecnie dostępna na GitHub, https://github.com/meyerjp3/psychometrics . Każdy zainteresowany udziałem jest mile widziany.
źródło
Masz tutaj dość szeroką listę pytań, ale dość istotną dla wielu badaczy!
Gorąco polecam pójść naprzód w IRT, ale tylko wtedy, gdy Twoja sytuacja spełnia wymagania. Na przykład dobrze pasuje do typów testów, których używasz, i prawdopodobnie najważniejsze jest to, że masz niezbędne rozmiary próbek. W przypadku dychotomicznych danych wielokrotnego wyboru zalecam model 3PL (argument Rascha „obiektywnego pomiaru” jest uderzająco nie przekonujący), a 500–1000 to ogólnie minimalny rozmiar próbki. Dychotomiczne dane bez zgadywania, takie jak ankiety psychologiczne, które mają odpowiedzi T / N na wypowiedzi, działają dobrze z 2PL. Jeśli masz skalę ratingową lub częściowe dane kredytowe, istnieją polimorficzne modele zaprojektowane specjalnie do takich sytuacji.
IMHO, najlepszym programem do stosowania IRT jest Xcalibre. Jest względnie przyjazny dla użytkownika (prosty GUI oraz niektóre typy wsadowe wiersza poleceń, jeśli chcesz go z jakiegoś powodu) i zapewnia bardzo czytelny wynik (raporty MS Word z obszernymi tabelami i liczbami). Odradzam używanie R z przeciwnych powodów. Wadą jest oczywiście to, że nie jest za darmo, ale zazwyczaj dostajesz to, za co płacisz, jak mówią. Pełny opis, przykładowe wyniki i bezpłatna wersja próbna są dostępne na stronie www.assess.com .
źródło
W międzyczasie ukazała się nowa książka Franka Bakera, Bakera Franka B., Seock-Ho Kim. Podstawy teorii odpowiedzi na przedmioty przy użyciu R. Springer International Publishing (2017) . Nie korzysta z pakietów R, ale oferuje fragmenty.
(Zatłoczona) lista pakietów R dla IRT z krótkim opisem jest dostępna w CRAN .
źródło