Około 600 studentów ma ocenę z obszernej oceny, którą można założyć, że ma dobrą wiarygodność / ważność. Ocena jest punktowana na 100 i jest to test wielokrotnego wyboru oznaczony przez komputer.
Tych 600 uczniów ma także wyniki drugiego, mniejszego fragmentu oceny. W tej drugiej części oceny są one podzielone na 11 kohort z 11 różnymi równiarkami, a między równiarkami występuje niepożądanie duży stopień zróżnicowania pod względem „hojności” w oznaczaniu lub jego braku. Druga ocena jest również punktowana na 100.
Studenci nie zostali przydzieleni do kohort losowo i istnieją dobre powody, aby spodziewać się różnic w poziomach umiejętności między kohortami.
Mam za zadanie dopilnować, aby różnice między markerami kohortowymi przy drugim zadaniu nie materialnie przewyższały / niekorzystały poszczególnych uczniów.
Moim pomysłem jest, aby wyniki kohorty przy drugiej ocenie były spójne z wynikami kohorty przy pierwszej, przy jednoczesnym zachowaniu indywidualnych różnic w obrębie kohort. Powinniśmy założyć, że mam dobre powody, by sądzić, że wykonanie obu zadań będzie wysoce skorelowane, ale znaczniki różnią się znacznie pod względem hojności.
Czy to najlepsze podejście? Jeśli nie, co to jest?
Byłoby bardzo mile widziane, gdyby odpowiadający mógł udzielić praktycznych wskazówek, jak wdrożyć dobre rozwiązanie, powiedzmy w R, SPSS lub Excel.
źródło
Odpowiedzi:
Wiedząc, jak różnią równiarki jest dobra, ale nadal nie powiedzieć, co do zrekompensowania stopnie do . Dla uproszczenia wyobraź sobie tylko dwie równiarki. Nawet jeśli stwierdzimy, że równiarka 1 jest konsekwentnie o 5 ocen bardziej hojna niż równiarka 2, to nie mówi ci, co zrobić z dwoma uczniami, którzy mieli po 70 stopni, jeden według równiarki 1 i jeden według równiarki 2. Czy mówimy, że równiarka 2 był ostry znacznik i podwyższył wartość z 70 do 75, utrzymując 70 z niezmienioną równiarką 1? Czy też zakładamy, że równiarka 1 była nadmiernie łagodna, powalił swojego ucznia do 65 ocen i utrzymał 70 równiarki w niezmienionej formie? Czy idziemy na kompromis w połowie drogi - rozciągając się na twoją sprawę, na podstawie średniej z 11 równiarki? Liczą się oceny absolutne, więc znajomość względnej hojności nie wystarczy.
Twój wniosek może zależeć od tego, jak „obiektywny” czujesz, że powinna być ostateczna ocena absolutna. Jednym z modeli mentalnych byłoby zaproponowanie, aby każdy uczeń miał „poprawną” ocenę - tę, która byłaby przyznawana przez Asesora wiodącego, gdyby mieli czas na ocenę każdej pracy osobno - do której obserwowane oceny są przybliżone. W tym modelu obserwowane oceny muszą zostać zrekompensowane dla ich równiarki, aby zbliżyć ich jak najbliżej do niezauważonej „prawdziwej” oceny. Innym modelem może być to, że wszystkie oceny są subiektywne i staramy się przekształcić każdą obserwowaną ocenę w kierunku oceny, którą przewidujemy, że zostałaby przyznana, gdyby wszyscy równiarki wzięli pod uwagę ten sam papier i osiągnęli dla niego jakiś kompromis lub średnią ocenę. Uważam, że drugi model jest mniej przekonujący jako rozwiązanie, nawet jeśli przyznanie podmiotowości jest bardziej realistyczne. W środowisku edukacyjnym zwykle jest ktoś, kto ponosi ostateczną odpowiedzialność za ocenę, aby zapewnić, że uczniowie otrzymają „ocenę, na jaką zasługują”, ale ta wiodąca rola zasadniczo zwolniła odpowiedzialność od tych równiarki, których już znamy, wyraźnie się nie zgadzają. Odtąd zakładam, że tamjest jedną „poprawną” oceną, którą staramy się oszacować, ale jest to propozycja podlegająca zaskarżeniu i może nie pasować do twoich okoliczności.
Załóżmy, że uczniowie A, B, C i D, wszyscy w tej samej kohorcie, „powinni” otrzymać odpowiednio 75, 80, 85 i 90, ale ich hojny równiarka konsekwentnie notuje 5 punktów za wysoko. Obserwujemy 80, 85, 90 i 95 i powinniśmy odjąć 5, ale znalezienie liczby do odjęcia jest problematyczne. Nie można tego zrobić, porównując wyniki między kohortami, ponieważ spodziewamy się, że kohorty będą się różnić średnią zdolnością. Jedną z możliwości jest wykorzystanie wyników testu wielokrotnego wyboru, aby przewidzieć prawidłowe wyniki drugiego zadania, a następnie użyć tego do oceny różnic między poszczególnymi równiarkami i prawidłowymi ocenami. Ale wykonanie tej prognozy nie jest trywialne - jeśli spodziewasz się innej średniej i standardowego odchylenia między dwiema ocenami, nie możesz po prostu założyć, że oceny drugiego stopnia powinny pasować do pierwszego.
Ponadto uczniowie różnią się względnymi umiejętnościami przy ocenie wielokrotnego wyboru i ocenach pisemnych. Można to potraktować jako pewnego rodzaju efekt losowy, stanowiący element ocen „obserwowanych” i „prawdziwych” ucznia, ale nie uchwyconych przez ich „przewidywaną” ocenę. Jeśli kohorty różnią się systematycznie, a uczniowie w kohorcie zwykle są podobni, nie powinniśmy oczekiwać, że efekt ten wyrówna się do zera w każdej kohorcie. Jeśli obserwowane przez kohortę oceny wynoszą średnio +5 w porównaniu z przewidywanymi, jest to prawda niemożliwew celu ustalenia, czy wynika to z hojnej równiarki, kohorty szczególnie lepiej nadającej się do oceny pisemnej niż wielokrotnego wyboru, czy jakiejś kombinacji tych dwóch. W skrajnym przypadku kohorta może mieć nawet mniejszą zdolność przy drugiej ocenie, ale zrekompensowała to bardzo hojna równiarka - lub odwrotnie. Nie możesz tego rozdzielić. Jest zmieszany.
Wątpię również w adekwatność tak prostego modelu addytywnego dla twoich danych. Równiarki mogą różnić się od Głównego Asesora nie tylko zmianą lokalizacji, ale także rozprzestrzenianiem się - chociaż ponieważ kohorty prawdopodobnie różnią się jednorodnością, nie można po prostu sprawdzić rozkładu obserwowanych ocen w każdej grupie, aby to wykryć. Co więcej, większość rozkładu ma wysokie wyniki, dość zbliżone do teoretycznego maksimum 100. Spodziewam się tego wprowadzenia nieliniowości z powodu kompresji w pobliżu maksimum - bardzo hojny równiarka może dawać znaki A, B, C i D, takie jak 85, 90, 94, 97. Trudniej jest to odwrócić niż tylko odjęcie stałej. Co gorsza, możesz zobaczyć „obcinanie” - wyjątkowo hojna równiarka może klasyfikować je jako 90, 95, 100, 100. Jest to niemożliweodwrócić, a informacje o względnej wydajności C i D zostaną bezpowrotnie utracone.
Twoi równiarki zachowują się zupełnie inaczej. Czy jesteś pewien, że różnią się one jedynie ogólną hojnością, a nie hojnością w różnych elementach oceny? Może to być warte sprawdzenia, ponieważ może wprowadzić różne komplikacje - np. Obserwowana ocena dla B może być gorsza niż ocena A, mimo że B jest o 5 punktów „lepsza”, nawet jeśli oceny przyznane przez równiarki dla każdego elementu są funkcją monotonicznie rosnącą Głównego Asesora! Załóżmy, że ocena jest podzielona między Q1 (A powinien uzyskać wynik 30/50, B 45/50) i Q2 (A powinien uzyskać wynik 45/50, B 35/50). Wyobraź sobie, że równiarka jest bardzo łagodna w Q1 (obserwowane oceny: A 40/50, B 50/50), ale surowa w Q2 (obserwowana: A 42/50, 30/50), a następnie obserwujemy sumy 82 dla A i 80 dla B. Jeśli musisz wziąć pod uwagę wyniki składowe,
Prawdopodobnie jest to rozszerzony komentarz, a nie odpowiedź, w tym sensie, że nie proponuje konkretnego rozwiązania w pierwotnych granicach problemu. Ale jeśli twoje równiarki już obsługują około 55 papierów każdy, to czy jest tak źle, że muszą spojrzeć na pięć lub dziesięć więcej do celów kalibracji? Masz już dobry pomysł na umiejętności uczniów, więc możesz wybrać próbkę artykułów z różnych klas. Następnie możesz ocenić, czy musisz zrekompensować hojność równiarki w całym teście, czy w każdym elemencie, i czy to zrobić, dodając / odejmując stałą, czy coś bardziej zaawansowanego, np. Interpolację (np. Jeśli martwisz się liniowość blisko 100). Ale słowo ostrzeżenia dotyczące interpolacji: załóżmy, że główny oceniający oznaczy pięć przykładowych prac jako 70, 75, 80, 85 i 90, podczas gdy równiarka oznacza je jako 80, 88, 84, 93 i 96, więc istnieje pewna różnica zdań co do porządku. Prawdopodobnie chcesz zmapować obserwowane oceny od 96 do 100 w przedziale od 90 do 100, a obserwowane oceny od 93 do 96 w przedziale od 85 do 90. Ale oceny wymagają nieco więcej. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”.
źródło
Bardzo prosty model:
Każda kohorta jest stronnicza ze względu na siłę swoich uczniów i łatwość równiarki. Zakładając, że jest to efekt addytywny, wycofujemy się z niego w następujący sposób: odejmujemy średni wynik w kohorcie w pierwszym teście i dodajemy średni wynik w kohorcie w drugim teście.
Minusem jest to, że indywidualny uczeń może zostać ukarany, jeśli ludzie w jego grupie nie będą mieli szczęścia podczas drugiego testu. Ale każda technika statystyczna ma ten potencjalnie niesprawiedliwy minus.
źródło
Nie możesz Przynajmniej nie bez gromadzenia dodatkowych danych. Aby zobaczyć, dlaczego, przeczytaj liczne komentarze entuzjastów @ whuber w tym wątku.
źródło
Edytować
Problem rozwiązany w tej odpowiedzi polega na znalezieniu rówieśników, którzy dają mniej punktów uczniom, których nie lubią.
Oryginalny post
Moje podejście, które moim zdaniem jest łatwe do wdrożenia, byłoby następujące:
1
Załóż model
2)
3)
Teraz niezwykła obserwacja jest taka, że ilość
Uwaga
Kod R.
Poniżej znajduje się kod w R. Zauważ, że w twoim przypadku podane zostaną zarówno mu, jak i y, więc wiersze generujące, gdy zostaną im przypisane numery rnorm, należy zignorować. Dołączam je, aby móc ocenić skrypt bez danych.
źródło
Przeformułowanie problemu: jak najlepiej podejść do ustalenia oceny z dwóch części egzaminu z warunkami wymagającymi, aby druga część była narażona na większą niepewność ze względu na zakres ocen jakościowych markerów delegowanych.
Gdzie: Master Tester = osoba odpowiedzialna za egzamin Delegowany tester = osoba (1 z 11) przypisana do oceny par # 2 egzaminu Student = facet, który sprawia przyjemność z siedzenia na egzaminie
Cele obejmują: A) Uczniowie otrzymują ocenę odzwierciedlającą ich pracę B) Zarządzaj niepewnością drugiej części, aby dostosować się do intencji Master Testera
Sugerowane podejście (odpowiedź): 1. Master Tester losowo wybiera reprezentatywny zestaw próbek egzaminów, zaznacza część 2 i rozwija korelację z częścią 1. 2. Wykorzystaj korelację do oceny wszystkich danych Markerów Delegowanych (Część 1) vs wynik # 2) 3. Tam, gdzie korelacja różni się znacznie od Master Testera - znaczenie, które ma być do zaakceptowania przez Master Testera - zbadaj egzamin jako Master Tester, aby ponownie przypisać wynik.
Takie podejście zapewnia, że główny tester jest odpowiedzialny za korelację i akceptowalne znaczenie. Korelacja może być tak prosta, jak wynik dla części nr 1 vs nr 2 lub względne wyniki dla pytań testu nr 1 vs nr 2.
Master Tester będzie mógł również ustawić jakość wyniku dla Części # 2 na podstawie „gumowatości” korelacji.
źródło