PYTANIE:
Mam dane binarne dotyczące pytań egzaminacyjnych (poprawne / niepoprawne). Niektóre osoby mogły mieć wcześniejszy dostęp do podzbioru pytań i prawidłowych odpowiedzi. Nie wiem kto, ilu lub który. Gdyby nie było oszukiwania, załóżmy, że modelowałbym prawdopodobieństwo poprawnej odpowiedzi dla elementu jako , gdzie reprezentuje trudność pytania, a to ukryta zdolność danej osoby. Jest to bardzo prosty model odpowiedzi na przedmiot, który można oszacować za pomocą funkcji takich jak ltm's rasch () w R. Oprócz oszacowań (gdzie indeksuje pojedyncze osoby) zmiennej utajonej, mam dostęp do osobnych oszacowań \ hat {q} _joo j j q j tej samej ukrytej zmiennej, która została uzyskana z innego zestawu danych, w którym oszukiwanie nie było możliwe.
Celem jest zidentyfikowanie osób, które prawdopodobnie oszukiwały oraz przedmiotów, o które oszukali. Jakie możesz zastosować metody? Oprócz nieprzetworzonych danych, , i są dostępne, chociaż pierwsze dwa będą miały pewne uprzedzenia z powodu oszukiwania. Idealnie byłoby, gdyby rozwiązanie miało postać probabilistycznego grupowania / klasyfikacji, chociaż nie jest to konieczne. Praktyczne pomysły są mile widziane, podobnie jak podejście formalne.
Do tej pory porównałem korelację wyników pytań dla par osób z wyższymi vs. niższymi wynikami (gdzie jest przybliżony wskaźnik prawdopodobieństwa, że oszukali). Na przykład posortowałem osoby według a następnie narysowałem korelację kolejnych par wyników pytań poszczególnych osób. Próbowałem również wykreślić średnią korelację wyników dla osób, których wartości \ hat {q} _j - \ hat {z} _j były większe niż kwantyl z , jako funkcja . Brak oczywistych wzorów dla obu podejść.
AKTUALIZACJA:
W końcu połączyłem pomysły z @SheldonCooper i pomocny artykuł Freakonomics, na który skierował mnie @whuber. Mile widziane inne pomysły / komentarze / krytyka.
Niech będzie wynikiem binarnym osoby dla pytania . Oszacuj logit modelu reakcji na przedmiot (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j,
Prawdopodobieństwo zaobserwowanego wyniku , zależne od łatwości przedmiotu i umiejętności osoby, można zapisać gdzie jest przewidywanym prawdopodobieństwem poprawna odpowiedź, a jest odwrotnym . Następnie, cech przedmiotu i osoby, wspólne prawdopodobieństwo, że osoba ma obserwacje wynosi i podobnie, wspólne prawdopodobieństwo, że pozycja ma obserwacje p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) , P i j ( ^ β i , ^ q j ) = i l o g i t ( ^
Dodatkowym krokiem, który próbowałem, jest pobranie r% najmniej prawdopodobnych osób (tj. Osób o najniższym r% posortowanych wartości p_j), obliczenie średniej odległości między ich zaobserwowanymi wynikami x_j (co powinno być skorelowane dla osób o niskim r, które są możliwymi oszustami) i wykreśl dla r = 0,001, 0,002, ..., 1.000. Średnia odległość wzrasta dla r = 0,001 do r = 0,025, osiąga maksimum, a następnie powoli spada do minimum przy r = 1. Nie do końca to, na co liczyłem.
źródło
Odpowiedzi:
Podejście ad hoc
Zakładam, że jest dość wiarygodny, ponieważ oszacowano go na wielu studentów, z których większość nie oszukiwała w pytaniu . Dla każdego ucznia uporządkuj pytania w kolejności rosnących trudności, oblicz (zwróć uwagę, że i j β i + q j q jβja ja jot βja+ qjot qjot jest tylko stałym przesunięciem) i ustawia próg w pewnym rozsądnym miejscu (np. p (poprawne) <0,6). Daje to zestaw pytań, na które uczeń prawdopodobnie nie udzieli prawidłowej odpowiedzi. Możesz teraz użyć testowania hipotez, aby sprawdzić, czy zostało to naruszone, w którym to przypadku uczeń prawdopodobnie oszukał (zakładając oczywiście, że twój model jest poprawny). Jednym zastrzeżeniem jest to, że jeśli jest kilka takich pytań, możesz nie mieć wystarczającej ilości danych, aby test był wiarygodny. Nie sądzę też, aby można było ustalić, które pytanie zdradził, ponieważ zawsze ma 50% szansy na odgadnięcie. Ale jeśli dodatkowo założysz, że wielu uczniów uzyskało dostęp do tego samego zestawu pytań (i oszukiwało), możesz porównać je wśród uczniów i zobaczyć, na które pytania udzielono odpowiedzi częściej niż przez przypadek.
Możesz zrobić podobną sztuczkę z pytaniami. Tj. Dla każdego pytania, posortuj uczniów według , dodaj (jest to teraz stałe przesunięcie) i próg z prawdopodobieństwem 0,6. To daje listę studentów, którzy nie powinni być w stanie poprawnie odpowiedzieć na to pytanie. Mają więc 60% szansy na odgadnięcie. Ponownie wykonaj test hipotez i sprawdź, czy jest to naruszone. Działa to tylko wtedy, gdy większość uczniów zdradza ten sam zestaw pytań (np. Jeśli część pytań „wyciekła” przed egzaminem).β iqjot βja
Zasadnicze podejście
Dla każdego ucznia istnieje zmienna binarna z wcześniejszym Bernoullim z pewnym prawdopodobieństwem, wskazującym, czy uczeń jest oszustem. Dla każdego pytania istnieje zmienna binarna , ponownie z pewnym odpowiednim wcześniejszym Bernoullim, wskazująca, czy pytanie zostało wyciekły. Następnie jest zestaw zmiennych binarnych , wskazujących, czy uczeń poprawnie odpowiedział na pytanie . Jeśli i , to rozkład to Bernoulli z prawdopodobieństwem 0,99. W przeciwnym razie dystrybucja jest . Te są obserwowanymi zmiennymi.l i a i j j i c j = 1 l i = 1 a i j l o g i t ( β i + q j ) a i j c j l idojot lja zaI j jot ja dojot= 1 lja= 1 zaI j l o gi t ( βja+ qjot) zaI j dojot i są ukryte i należy je wywnioskować. Prawdopodobnie możesz to zrobić, próbkując Gibbs. Ale inne podejścia mogą być również wykonalne, być może coś związanego z biclustering.lja
źródło
Jeśli chcesz zająć się bardziej złożonymi podejściami, możesz spojrzeć na modele teorii odpowiedzi na przedmioty. Następnie możesz modelować trudność każdego pytania. Myślę, że uczniowie, którym poprawiono trudne elementy, a brakuje łatwiejszych, byliby bardziej skłonni do oszukiwania niż ci, którzy zrobili coś przeciwnego.
Minęło ponad dziesięć lat, odkąd robiłem takie rzeczy, ale myślę, że może to być obiecujące. Aby uzyskać więcej informacji, sprawdź książki psychometrii
źródło