Jak zacząć korzystać z teorii odpowiedzi na pytania i jakiego oprogramowania użyć?

21

Kontekst

Czytałem o teorii odpowiedzi na przedmioty i uważam ją za fascynującą. Myślę, że rozumiem podstawy, ale zastanawiam się, jak zastosować techniki statystyczne związane z tym obszarem. Poniżej znajdują się dwa artykuły podobne do obszaru, w którym chciałbym zastosować ITR:

Drugi to ten, który naprawdę chciałbym przedłużyć w tym momencie.

Pobrałem bezpłatny program o nazwie jMetrik i wydaje się, że działa świetnie. Myślę, że może to być zbyt podstawowe, jeśli chodzi o IRT, ale nie jestem pewien.

Wiem, że „najlepszy” sposób prawdopodobnie obejmowałby naukę języka R; nie wiem jednak, czy mogę poświęcić czas na pokonanie tej krzywej uczenia się. Zauważ, że mamy fundusze na zakup oprogramowania, ale z tego, co widzę, wydaje się, że nie ma tam żadnych świetnych programów IRT.

pytania

  • Co sądzisz o skuteczności jMetrik?
  • Jak zasugerowałbyś, żebym kontynuował stosowanie IRT?
  • Jakie są najlepsze programy do stosowania IRT?
  • Czy ktoś z was regularnie korzysta z IRT? Jeśli tak to jak?
Behacad
źródło
1
z jakiego oprogramowania obecnie korzystasz?
StasK
Korzystam z jMetrik. Jest całkiem nowy, jak wygląda i robi wiele rzeczy, którymi jestem zainteresowany!
Behacad
2
Czy to działa w trybie skryptowym? Jeśli masz tylko GUI, to wyniki będą bardzo trudne do odtworzenia. Tryb skryptowy jest koniecznością dla każdego poważnego oprogramowania.
StasK

Odpowiedzi:

22

Jako dobry start do IRT, zawsze zalecam przeczytanie Wizualnego przewodnika po teorii odpowiedzi na przedmiot .

Ankietę dostępnego oprogramowania można znaleźć na stronie www.rasch.org .

Z mojego doświadczenia wynika, że ​​polecenie Raschtest (i powiązane) polecenie Stata jest bardzo przydatne w większości przypadków, gdy zainteresowany jest dopasowaniem modelu jednoparametrowego. W przypadku bardziej złożonego projektu można skorzystać z GLLAMM ; istnieje dobry przykład działania oparty na książce De Boecka i Wilsona, Explanatory Item and Response Models (Springer, 2004).

Jeśli chodzi o R, istnieje wiele pakietów, które stały się dostępne w ciągu ostatnich pięciu lat, patrz na przykład powiązany Widok zadań CRAN . Większość z nich zostały omówione w specjalnym wydaniu w Journal of Statistical Software (vol. 20, 2007). Jak omówiono w innej odpowiedzi, ltm i eRm pozwalają na dopasowanie szerokiej gamy modeli IRT. Ponieważ opierają się one na innej metodzie szacowania --- ltmzastosowali podejście marginalne, podczas gdy eRmstosują podejście warunkowe --- wybór jednego lub drugiego zależy głównie od modelu, który chcesz dopasować (eRm nie pasuje do modeli 2- lub 3-parametrowych), a cel pomiaru, który przestrzegasz: warunkowe oszacowanie parametrów osoby ma pewne fajne właściwości psychometryczne, natomiast podejście marginalne pozwala łatwo przejść do modelu z efektami mieszanymi, jak omówiono w dwóch poniższych artykułach :

Istnieją również pewne możliwości dopasowania modeli Rasch przy użyciu metod MCMC, patrz np. Pakiet MCMCpack (lub WinBUGS / JAGS , ale patrz Kod BUGS dla teorii odpowiedzi na pytanie , JSS (2010) 36).

Nie mam doświadczenia z SAS do modelowania IRT, więc dam to komuś, kto jest bardziej zaznajomiony z programowaniem SAS.

Inne dedykowane oprogramowanie (najczęściej używane w ocenie edukacyjnej) to: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (nie powołując się na listę już dostępną na wikipedii ). Żadne z nich nie jest darmowe, ale dla niektórych z nich proponowana jest ograniczona czasowo wersja demonstracyjna. Znalazłem jMetrik bardzo ograniczone, gdy próbowałem go (rok temu), a wszystkie funkcje są już dostępne w R. Podobnie ConstructMap można bezpiecznie zastąpiony przez lme4 , jak pokazano na jałmużna połączonego powyżej. Powinienem także wspomnieć mdltm(Wielowymiarowe dyskretne modele cech ukrytych) dla mieszanych modeli Rascha autorstwa von Daviera i współpracownika, który ma towarzyszyć książceModele Rasch z rozkładem wielu odmian i mieszanin (Springer, 2007).

chl
źródło
Fantastyczny! Dziękujemy za bardzo wyczerpującą odpowiedź! Obie odpowiedzi pomogą mi dobrze, a także jestem pewien, że każdy, kto jest zainteresowany tym obszarem. Sugeruję, abyś ponownie spojrzał na jMetrik i być może dał mi swoje przemyślenia. Ma teraz modelowanie Rascha, krzywe ICC, niektóre krzywe IRT, równanie IRT (modele 1PT, 2PT, 3PT) i więcej.
Behacad,
Spojrzę na zaktualizowaną wersję. Ale szczerze mówiąc, to, co powiedział @Stask, jest warte zapamiętania, jeśli planujesz zrobić coś poważnego poza szacowaniem parametrów i raportowaniem wizualnym. Aby zorientować się, co mam na myśli, spojrzeć na wprowadzenie do teorii psychometrycznych z aplikacjami w R . (Obejmuje to coś więcej niż to, co niektórzy nazywają „nowoczesną” psychometrią.)
Chl
@chi - Otrzymałem bardzo różne wyniki, kiedy przeprowadziłem analizy IRT w R przy użyciu LTM w porównaniu do tego, kiedy przeprowadziłem tę samą analizę w Mplusie, a następnie w Multilogu (podczas gdy analizy w Mplus i Multilog były identyczne). Próbowałem ustalić, dlaczego z autorem LTM, ale nie otrzymałem żadnych odpowiedzi. Czy miałeś podobne doświadczenia z rozbieżnymi wynikami z różnych pakietów oprogramowania?
Tormod
ex5.5θp-βjaja=1,,kp=1,,nβja-θpktóry jest modelowany oraz metoda estymacji (prawdopodobieństwo marginalne vs. warunkowe), a dla modeli ponad 2-parametrowych, czy progi są wyśrodkowane, czy nie.
chl
@chi - przepraszam za opóźnienie w odpowiedzi, nie zauważyłem twojego komentarza. Nie wiem, czy to jest nadal istotne, ale dostałem różnice w zakresie od 0,184 do 1,429 dla parametrów dyskryminacji (a). Na przykład Mplus dał a = 5,084, podczas gdy ltm dał ten sam element a = 3,655. Ogólnie rzecz biorąc, dawałem mniejsze a niż plus. (Uruchomienie tych samych analiz w multilogu dało a odpowiadające a z Mplus). B były bardziej podobne.
Tormod
8

Na pierwsze pytanie nie mam żadnych informacji o jMetrick.

Przy stosowaniu IRT (podobnie jak w przypadku każdej innej procedury statystycznej) pierwszym krokiem jest użycie go z jak największą liczbą różnych rodzajów danych. Istnieje krzywa uczenia się, ale uważam, że warto.

Jedną ważną cechą IRT jest rozróżnienie między modelami Rasch i modelami IRT. Zostały opracowane przez różnych ludzi do różnych celów. To powiedziawszy, modele IRT są nadzbiorem modeli Rasch.

Modele Rascha są modelami jednoparametrowymi - zakładają, że wszystkie elementy kwestionariusza w równym stopniu przewidują utajoną cechę.

Modele IRT są jednak dwoma modelami parametrów, które pozwalają pytaniom różnić się pod względem zdolności do dostarczania informacji o zdolności uczestników.

Ponadto istnieją trzy modele parametrów, które są podobne do modeli IRT, z tą różnicą, że pozwalają parametrowi zgadnąć uwzględnić zdolność uczestników do otrzymania właściwej odpowiedzi przez przypadek (jest to bardziej problem dotyczący umiejętności niż testów osobowości).

Ponadto istnieje wielowymiarowy IRT, który ocenia wiele ukrytych zdolności naraz. Nie wiem dużo na ten temat, ale to jest dziedzina, którą zamierzam dowiedzieć się więcej.

Istnieje również rozróżnienie między dychotomicznymi i wielomianowymi metodami IRT. Dychotomiczne modele IRT to te stosowane w testach umiejętności, które mają poprawną i złą odpowiedź. Modele wielomianowe IRT są stosowane w testach osobowości, w których istnieje wiele odpowiedzi, które są jednakowo prawidłowe (w tym sensie, że nie ma poprawnej odpowiedzi).

Osobiście używam R do teorii odpowiedzi na przedmioty. Użyłem dwóch głównych pakietów, eRmktóre pasują tylko do modeli Rasch i ltmktóre pasują do modeli teorii odpowiedzi na przedmioty (modele dwu- i trzyparametrowe). Oba mają podobną funkcjonalność i oba zapewniają więcej procedur dla dychotomicznych modeli IRT. Nie wiem, czy R jest „najlepszy” dla IRT, nie ma wszystkich dostępnych modeli IRT, ale z pewnością jest najbardziej rozszerzalny, ponieważ można stosunkowo łatwo zaprogramować te modele.

Używam IRT prawie wyłącznie do modeli polimotomicznych, w R. Zazwyczaj zaczynam od nieparametrycznych metod IRT (dostarczonych w pakiecie mokken) do testowania założeń, a następnie kontynuuję model zgrzytania, dodając więcej złożoności, aby uzyskać dobre dopasowanie.

Dla wielowymiarowego IRT istnieje pakiet `mirt ', który zapewnia tę funkcjonalność. Nie korzystałem z niego, więc nie mogę komentować.

Jeśli zainstalujesz te pakiety w R i wywołasz funkcję „winieta („ nazwa-paczki ”)”, powinieneś dostać kilka użytecznych winiet (zdecydowanie dla innych eRmi mokkenbyć może dla innych), które mogą okazać się przydatne (w zależności od twojego poziomu matematyka).

Wreszcie istnieje wiele dobrych książek na temat modeli rasch i irt. Teoria odpowiedzi na przedmioty dla psychologów jest często stosowana (chociaż nie podobał mi się styl), a dalej w łańcuchu technicznego wyrafinowania istnieją dwa niezwykle wszechstronne i przydatne podręczniki - Podręcznik współczesnej teorii odpowiedzi na pytanie i modeli Rascha: podstawy, najnowsze Opracowania i aplikacje .

Mam nadzieję, że to pomoże.

richiemorrisroe
źródło
Dziękuję Ci! To bardzo doceniane. Chciałbym również dowiedzieć się więcej o opcjach oprogramowania, jeśli ktoś ma wiedzę w tej dziedzinie.
Behacad,
3

jMetrik jest potężniejszy niż myślisz. Jest przeznaczony do pracy operacyjnej, w której badacze potrzebują wielu procedur w jednym zunifikowanym systemie. Obecnie można oszacować parametry IRT dla modeli skali Rasch, częściowego kredytu i ratingu. Umożliwia także łączenie w skali IRT za pomocą Stocking-Lord, Haebara i innymi metodami. Ponieważ zawiera on zintegrowaną bazę danych, dane wyjściowe z oszacowania IRT można wykorzystać do łączenia skali bez potrzeby zmiany plików danych. Co więcej, wszystkie dane wyjściowe mogą być przechowywane w bazie danych do użycia z innymi metodami w jMetrik lub programach zewnętrznych, takich jak R.

Możesz również uruchomić go za pomocą skryptów zamiast GUI. Na przykład poniższy kod będzie (a) importował dane do bazy danych, (b) oceniał elementy za pomocą klucza odpowiedzi, (c) oceniał parametry modelu Rasch i (d) eksportował dane jako plik CSV. Możesz użyć końcowego pliku wyjściowego jako danych wejściowych do R do dalszej analizy lub możesz użyć R, aby połączyć się bezpośrednio z bazą danych jMetrik i pracować z wynikami.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Oprogramowanie jest wciąż na wczesnym etapie rozwoju. Obecnie dodaję eksploracyjną analizę czynników i bardziej zaawansowane modele reakcji na przedmioty. W przeciwieństwie do wielu innych programów IRT, jMetrik jest oprogramowaniem typu open source. wszystkie procedury pomiarowe wykorzystują bibliotekę psychometrii, która jest obecnie dostępna na GitHub, https://github.com/meyerjp3/psychometrics . Każdy zainteresowany udziałem jest mile widziany.

meyerjp3
źródło
0

Masz tutaj dość szeroką listę pytań, ale dość istotną dla wielu badaczy!

Gorąco polecam pójść naprzód w IRT, ale tylko wtedy, gdy Twoja sytuacja spełnia wymagania. Na przykład dobrze pasuje do typów testów, których używasz, i prawdopodobnie najważniejsze jest to, że masz niezbędne rozmiary próbek. W przypadku dychotomicznych danych wielokrotnego wyboru zalecam model 3PL (argument Rascha „obiektywnego pomiaru” jest uderzająco nie przekonujący), a 500–1000 to ogólnie minimalny rozmiar próbki. Dychotomiczne dane bez zgadywania, takie jak ankiety psychologiczne, które mają odpowiedzi T / N na wypowiedzi, działają dobrze z 2PL. Jeśli masz skalę ratingową lub częściowe dane kredytowe, istnieją polimorficzne modele zaprojektowane specjalnie do takich sytuacji.

IMHO, najlepszym programem do stosowania IRT jest Xcalibre. Jest względnie przyjazny dla użytkownika (prosty GUI oraz niektóre typy wsadowe wiersza poleceń, jeśli chcesz go z jakiegoś powodu) i zapewnia bardzo czytelny wynik (raporty MS Word z obszernymi tabelami i liczbami). Odradzam używanie R z przeciwnych powodów. Wadą jest oczywiście to, że nie jest za darmo, ale zazwyczaj dostajesz to, za co płacisz, jak mówią. Pełny opis, przykładowe wyniki i bezpłatna wersja próbna są dostępne na stronie www.assess.com .

Eneasz
źródło
Czy chciałbyś wyjaśnić, dlaczego argument dotyczący „obiektywnego pomiaru” sensu Rascha (a dokładniej możliwości szczegółowych porównań obiektywnych) jest „uderzająco mało przekonujący”?
Momo