Jak najlepiej radzić sobie z efektami markerów o różnym poziomie hojności w ocenianiu prac studenckich?

13

Około 600 studentów ma ocenę z obszernej oceny, którą można założyć, że ma dobrą wiarygodność / ważność. Ocena jest punktowana na 100 i jest to test wielokrotnego wyboru oznaczony przez komputer.

Tych 600 uczniów ma także wyniki drugiego, mniejszego fragmentu oceny. W tej drugiej części oceny są one podzielone na 11 kohort z 11 różnymi równiarkami, a między równiarkami występuje niepożądanie duży stopień zróżnicowania pod względem „hojności” w oznaczaniu lub jego braku. Druga ocena jest również punktowana na 100.

Studenci nie zostali przydzieleni do kohort losowo i istnieją dobre powody, aby spodziewać się różnic w poziomach umiejętności między kohortami.

Mam za zadanie dopilnować, aby różnice między markerami kohortowymi przy drugim zadaniu nie materialnie przewyższały / niekorzystały poszczególnych uczniów.

Moim pomysłem jest, aby wyniki kohorty przy drugiej ocenie były spójne z wynikami kohorty przy pierwszej, przy jednoczesnym zachowaniu indywidualnych różnic w obrębie kohort. Powinniśmy założyć, że mam dobre powody, by sądzić, że wykonanie obu zadań będzie wysoce skorelowane, ale znaczniki różnią się znacznie pod względem hojności.

Czy to najlepsze podejście? Jeśli nie, co to jest?

Byłoby bardzo mile widziane, gdyby odpowiadający mógł udzielić praktycznych wskazówek, jak wdrożyć dobre rozwiązanie, powiedzmy w R, SPSS lub Excel.

user1205901 - Przywróć Monikę
źródło
3
Świetne pytanie! Czy końcowe wyniki wielokrotnego wyboru i części eseju powinny być porównywalne (tj. Te same zakresy liczbowe)?
gung - Przywróć Monikę
2
Pisząc to pytanie, pomyślałem, że może być na twojej drodze! Ostateczne wyniki są zasadniczo porównywalne, ale nieco inne. Średnia w sekcji wielokrotnego wyboru wynosi ~ 70 przy SD około 15. Średnia w drugiej sekcji wynosi ~ 85 przy SD około 6.
użytkownik1205901 - Przywróć Monikę
7
Byłbym podejrzany o wszelkie wysiłki zmierzające do rozwiązania tego problemu wyłącznie na podstawie danych, które opisałeś, ponieważ musiałoby to opierać się na silnym (i niesprawdzalnym) założeniu, że nie ma interakcji między kohortą a wydajnością na dwóch oddzielnych instrumentach testowych. Jeśli to możliwe, rozważ opcję przeprowadzenia osobnego małego eksperymentu w celu skalibrowania równiarek.
whuber
9
Aby lepiej zrozumieć, na czym polega problem, przypuśćmy (hipotetycznie), że (1) dwie formy oceny to wielokrotny wybór i esej, a (2) twoi starsi uczniowie mają tendencję do radzenia sobie relatywnie lepiej w przypadku pytań dotyczących eseju. Kiedy wykorzystujesz swoje dane, aby wyniki były „spójne”, będziesz mylić efekty równiarki z efektami wieku, a dokonując korekt, systematycznie będzie to niekorzystne dla starszych uczniów w porównaniu do młodszych. Bez względu na to, jak zaawansowany algorytm wybierzesz, może on tylko rozwiązać ten podstawowy problem. Trzeba jakieś dodatkowe dane, aby rozwiązać ten zakłócających.
whuber
3
Jedną rzeczą do rozważenia jest to, jak wygodne byłoby wyjaśnienie procedury dostosowywania uczniom lub innym zainteresowanym stronom: wielu może uważać, że biorąc pod uwagę potencjalny problem z oznaczaniem, włożenie pewnego wysiłku w odpowiednią kalibrację znaczników nie byłoby zbyt dużym oczekiwaniem, jeśli egzamin jest ważny.
Scortchi - Przywróć Monikę

Odpowiedzi:

8

Wiedząc, jak różnią równiarki jest dobra, ale nadal nie powiedzieć, co do zrekompensowania stopnie do . Dla uproszczenia wyobraź sobie tylko dwie równiarki. Nawet jeśli stwierdzimy, że równiarka 1 jest konsekwentnie o 5 ocen bardziej hojna niż równiarka 2, to nie mówi ci, co zrobić z dwoma uczniami, którzy mieli po 70 stopni, jeden według równiarki 1 i jeden według równiarki 2. Czy mówimy, że równiarka 2 był ostry znacznik i podwyższył wartość z 70 do 75, utrzymując 70 z niezmienioną równiarką 1? Czy też zakładamy, że równiarka 1 była nadmiernie łagodna, powalił swojego ucznia do 65 ocen i utrzymał 70 równiarki w niezmienionej formie? Czy idziemy na kompromis w połowie drogi - rozciągając się na twoją sprawę, na podstawie średniej z 11 równiarki? Liczą się oceny absolutne, więc znajomość względnej hojności nie wystarczy.

Twój wniosek może zależeć od tego, jak „obiektywny” czujesz, że powinna być ostateczna ocena absolutna. Jednym z modeli mentalnych byłoby zaproponowanie, aby każdy uczeń miał „poprawną” ocenę - tę, która byłaby przyznawana przez Asesora wiodącego, gdyby mieli czas na ocenę każdej pracy osobno - do której obserwowane oceny są przybliżone. W tym modelu obserwowane oceny muszą zostać zrekompensowane dla ich równiarki, aby zbliżyć ich jak najbliżej do niezauważonej „prawdziwej” oceny. Innym modelem może być to, że wszystkie oceny są subiektywne i staramy się przekształcić każdą obserwowaną ocenę w kierunku oceny, którą przewidujemy, że zostałaby przyznana, gdyby wszyscy równiarki wzięli pod uwagę ten sam papier i osiągnęli dla niego jakiś kompromis lub średnią ocenę. Uważam, że drugi model jest mniej przekonujący jako rozwiązanie, nawet jeśli przyznanie podmiotowości jest bardziej realistyczne. W środowisku edukacyjnym zwykle jest ktoś, kto ponosi ostateczną odpowiedzialność za ocenę, aby zapewnić, że uczniowie otrzymają „ocenę, na jaką zasługują”, ale ta wiodąca rola zasadniczo zwolniła odpowiedzialność od tych równiarki, których już znamy, wyraźnie się nie zgadzają. Odtąd zakładam, że tamjest jedną „poprawną” oceną, którą staramy się oszacować, ale jest to propozycja podlegająca zaskarżeniu i może nie pasować do twoich okoliczności.

Załóżmy, że uczniowie A, B, C i D, wszyscy w tej samej kohorcie, „powinni” otrzymać odpowiednio 75, 80, 85 i 90, ale ich hojny równiarka konsekwentnie notuje 5 punktów za wysoko. Obserwujemy 80, 85, 90 i 95 i powinniśmy odjąć 5, ale znalezienie liczby do odjęcia jest problematyczne. Nie można tego zrobić, porównując wyniki między kohortami, ponieważ spodziewamy się, że kohorty będą się różnić średnią zdolnością. Jedną z możliwości jest wykorzystanie wyników testu wielokrotnego wyboru, aby przewidzieć prawidłowe wyniki drugiego zadania, a następnie użyć tego do oceny różnic między poszczególnymi równiarkami i prawidłowymi ocenami. Ale wykonanie tej prognozy nie jest trywialne - jeśli spodziewasz się innej średniej i standardowego odchylenia między dwiema ocenami, nie możesz po prostu założyć, że oceny drugiego stopnia powinny pasować do pierwszego.

Ponadto uczniowie różnią się względnymi umiejętnościami przy ocenie wielokrotnego wyboru i ocenach pisemnych. Można to potraktować jako pewnego rodzaju efekt losowy, stanowiący element ocen „obserwowanych” i „prawdziwych” ucznia, ale nie uchwyconych przez ich „przewidywaną” ocenę. Jeśli kohorty różnią się systematycznie, a uczniowie w kohorcie zwykle są podobni, nie powinniśmy oczekiwać, że efekt ten wyrówna się do zera w każdej kohorcie. Jeśli obserwowane przez kohortę oceny wynoszą średnio +5 w porównaniu z przewidywanymi, jest to prawda niemożliwew celu ustalenia, czy wynika to z hojnej równiarki, kohorty szczególnie lepiej nadającej się do oceny pisemnej niż wielokrotnego wyboru, czy jakiejś kombinacji tych dwóch. W skrajnym przypadku kohorta może mieć nawet mniejszą zdolność przy drugiej ocenie, ale zrekompensowała to bardzo hojna równiarka - lub odwrotnie. Nie możesz tego rozdzielić. Jest zmieszany.

Wątpię również w adekwatność tak prostego modelu addytywnego dla twoich danych. Równiarki mogą różnić się od Głównego Asesora nie tylko zmianą lokalizacji, ale także rozprzestrzenianiem się - chociaż ponieważ kohorty prawdopodobnie różnią się jednorodnością, nie można po prostu sprawdzić rozkładu obserwowanych ocen w każdej grupie, aby to wykryć. Co więcej, większość rozkładu ma wysokie wyniki, dość zbliżone do teoretycznego maksimum 100. Spodziewam się tego wprowadzenia nieliniowości z powodu kompresji w pobliżu maksimum - bardzo hojny równiarka może dawać znaki A, B, C i D, takie jak 85, 90, 94, 97. Trudniej jest to odwrócić niż tylko odjęcie stałej. Co gorsza, możesz zobaczyć „obcinanie” - wyjątkowo hojna równiarka może klasyfikować je jako 90, 95, 100, 100. Jest to niemożliweodwrócić, a informacje o względnej wydajności C i D zostaną bezpowrotnie utracone.

Twoi równiarki zachowują się zupełnie inaczej. Czy jesteś pewien, że różnią się one jedynie ogólną hojnością, a nie hojnością w różnych elementach oceny? Może to być warte sprawdzenia, ponieważ może wprowadzić różne komplikacje - np. Obserwowana ocena dla B może być gorsza niż ocena A, mimo że B jest o 5 punktów „lepsza”, nawet jeśli oceny przyznane przez równiarki dla każdego elementu są funkcją monotonicznie rosnącą Głównego Asesora! Załóżmy, że ocena jest podzielona między Q1 (A powinien uzyskać wynik 30/50, B 45/50) i Q2 (A powinien uzyskać wynik 45/50, B 35/50). Wyobraź sobie, że równiarka jest bardzo łagodna w Q1 (obserwowane oceny: A 40/50, B 50/50), ale surowa w Q2 (obserwowana: A 42/50, 30/50), a następnie obserwujemy sumy 82 dla A i 80 dla B. Jeśli musisz wziąć pod uwagę wyniki składowe,

Prawdopodobnie jest to rozszerzony komentarz, a nie odpowiedź, w tym sensie, że nie proponuje konkretnego rozwiązania w pierwotnych granicach problemu. Ale jeśli twoje równiarki już obsługują około 55 papierów każdy, to czy jest tak źle, że muszą spojrzeć na pięć lub dziesięć więcej do celów kalibracji? Masz już dobry pomysł na umiejętności uczniów, więc możesz wybrać próbkę artykułów z różnych klas. Następnie możesz ocenić, czy musisz zrekompensować hojność równiarki w całym teście, czy w każdym elemencie, i czy to zrobić, dodając / odejmując stałą, czy coś bardziej zaawansowanego, np. Interpolację (np. Jeśli martwisz się liniowość blisko 100). Ale słowo ostrzeżenia dotyczące interpolacji: załóżmy, że główny oceniający oznaczy pięć przykładowych prac jako 70, 75, 80, 85 i 90, podczas gdy równiarka oznacza je jako 80, 88, 84, 93 i 96, więc istnieje pewna różnica zdań co do porządku. Prawdopodobnie chcesz zmapować obserwowane oceny od 96 do 100 w przedziale od 90 do 100, a obserwowane oceny od 93 do 96 w przedziale od 85 do 90. Ale oceny wymagają nieco więcej. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”. Być może zaobserwowane oceny od 84 do 93 należy zmapować na przedział 75 do 85? Alternatywą byłaby regresja (prawdopodobnie wielomianowa) w celu uzyskania wzoru na „przewidywaną prawdziwą ocenę” z „obserwowanej oceny”.

Silverfish
źródło
1
Niestety charakter oceny 2 sprawia, że ​​równiarki nie mogą przyjrzeć się więcej do celów kalibracji. Możesz myśleć o tym jak o ustnej recytacji poezji, która została wykonana raz bez nagrania, a następnie oceniona natychmiast. Planowanie nowych recytacji wyłącznie do celów kalibracyjnych byłoby niepraktyczne. Aby odpowiedzieć na twoje inne pytanie, ocena 2 nie miała tak naprawdę wyraźnych podskładników i nie musimy brać pod uwagę wyników składników.
user1205901 - Przywróć Monikę
1
To „nie jest odpowiedź”, ale w idealnym świecie sugerowałbym odwrócenie rzeczy i skorzystanie z przykładowej próbki (być może ze sztucznych zadań celowo zaprojektowanych tak, aby były na granicy klasy, a nie przez prawdziwych uczniów) jako sposobu szkolenia równiarki mają tę samą hojność, a nie dedukują i kompensują swoje hojności. Jeśli oceny zostaną wykonane, to oczywiście nie jest to dla ciebie rozwiązanie.
Silverfish,
1
(+1) Bardzo dokładne „brak odpowiedzi”. Spójność w raczej subiektywnych testach można często znacznie poprawić, dzieląc zadanie oceniania na komponenty - w przeciwnym razie jedna równiarka może przykładać większą wagę do rytmu, inna do projekcji, i c.
Scortchi - Przywróć Monikę
Oczywiste jest, że oprócz przedłożenia ewentualnej korekty osobie, która ostatecznie podejmie decyzję w tej sprawie, będę również musiał przedstawić wyjaśnienie zalet i wad dostosowania. Twoja odpowiedź zawiera wiele pomocnych materiałów na ten temat. Zastanawiam się jednak, jakich kryteriów mogę użyć, aby ocenić, czy bardziej korzystne jest pozostawienie wszystkiego w spokoju, czy wprowadzenie zmian. Patrzę na oceny kohortowe i moja intuicja mówi, że różnice między markerami mają duży wpływ. Intuicja jest zawodna, ale nie jestem pewien, co jeszcze mogę zrobić w tym przypadku.
user1205901 - Przywróć Monikę
2
Jedno pytanie dotyczy tego, czy masz uzasadnione podstawy, by sądzić, że efekt „zróżnicowanej zdolności zadania” jest niewielki, szczególnie gdy uśrednia się go w grupie, w porównaniu z efektem „hojności równiarki”. Jeśli tak, możesz spróbować oszacować efekt hojności dla każdej kohorty - ale ryzykujesz zmieszaniem. Co więcej, istnieje Catch 22. Byłbym bardzo ostrożny w stosowaniu dużych „poprawek” do obserwowanych ocen. Ale jeśli sugerowane poprawki są niewielkie, prawdopodobne jest, że wynikają one z systematycznych różnic w zróżnicowanej zdolności zadania między kohortami, a nie z hojności równiarki.
Silverfish,
2

Bardzo prosty model:

s1,iis2,iA1,,Ap

Każda kohorta jest stronnicza ze względu na siłę swoich uczniów i łatwość równiarki. Zakładając, że jest to efekt addytywny, wycofujemy się z niego w następujący sposób: odejmujemy średni wynik w kohorcie w pierwszym teście i dodajemy średni wynik w kohorcie w drugim teście.

s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

s

i,si=αs1,i+(1α)s2,i

Minusem jest to, że indywidualny uczeń może zostać ukarany, jeśli ludzie w jego grupie nie będą mieli szczęścia podczas drugiego testu. Ale każda technika statystyczna ma ten potencjalnie niesprawiedliwy minus.

Arthur B.
źródło
3
α
1
Nie - kohorty nie są wybierane losowo.
Scortchi - Przywróć Monikę
1
... co, jak mówi @whuber, jest mylone z jakąkolwiek nieodłączną tendencją kohorty (z powodu wieku lub cokolwiek innego) do radzenia sobie stosunkowo lepiej na jednym rodzaju testu niż na innym.
Scortchi - Przywróć Monikę
2
Nie możesz wyeliminować zamieszania, biorąc większe kohorty! W najlepszym razie możesz wymyślić coraz bardziej precyzyjne szacunki wartości niemożliwych do interpretacji.
whuber
3
Być może rozsądne: ale nie da się tego sprawdzić, biorąc pod uwagę informacje dostępne PO. Ważność twojej odpowiedzi zależy od prawdziwości tego domniemanego założenia. Co gorsza, jego negacja (która oczywiście jest również nie do przetestowania) jest również niezwykle uzasadniona: ponieważ kohorty są wybierane samodzielnie, mogą składać się z ludzi, którzy działają w różny sposób na różnych instrumentach oceny, co sugeruje, że może być prawdopodobne, że ten zróżnicowany sukces wynikać będzie częściowo z kohorty, a tylko częściowo z powodu zmienności między równiarkami.
whuber
1

Nie możesz Przynajmniej nie bez gromadzenia dodatkowych danych. Aby zobaczyć, dlaczego, przeczytaj liczne komentarze entuzjastów @ whuber w tym wątku.

Jake Westfall
źródło
0

Edytować

Problem rozwiązany w tej odpowiedzi polega na znalezieniu rówieśników, którzy dają mniej punktów uczniom, których nie lubią.

Oryginalny post

Moje podejście, które moim zdaniem jest łatwe do wdrożenia, byłoby następujące:

μk,ikiyk,i

1

Załóż model

yk,i=μk,i+α+τek,iααiα

2)

Giiy~k,i

yk,iμk,iα=y~k,i=Gi+σie~k,i

Gσ

3)

Teraz niezwykła obserwacja jest taka, że ​​ilość

T=|y~Giσi|

Uwaga

eT

Kod R.

Poniżej znajduje się kod w R. Zauważ, że w twoim przypadku podane zostaną zarówno mu, jak i y, więc wiersze generujące, gdy zostaną im przypisane numery rnorm, należy zignorować. Dołączam je, aby móc ocenić skrypt bez danych.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]
Hunaphu
źródło
4
Wydaje się, że nie odpowiedziałeś na pytanie: kończysz jedynie zaleceniem zbadania wszelkich „nietypowych obserwacji”. Jak to rozwiązuje problem?
whuber
Czytając pytanie ponownie, być może zbytnio skupiłem się na części „indywidualnej”. Problem rozwiązany w tej odpowiedzi polega raczej na znalezieniu rówieśników, którzy dają mniej punktów uczniom, których nie lubią. Pierwotne pytanie jest niemożliwe (!) Do rozwiązania. Jak już zasugerowano, jest bardzo prawdopodobne, że uczniowie współpracują lub w inny sposób silnie korelują w obrębie każdej kohorty.
Hunaphu,
0

Przeformułowanie problemu: jak najlepiej podejść do ustalenia oceny z dwóch części egzaminu z warunkami wymagającymi, aby druga część była narażona na większą niepewność ze względu na zakres ocen jakościowych markerów delegowanych.

Gdzie: Master Tester = osoba odpowiedzialna za egzamin Delegowany tester = osoba (1 z 11) przypisana do oceny par # 2 egzaminu Student = facet, który sprawia przyjemność z siedzenia na egzaminie

Cele obejmują: A) Uczniowie otrzymują ocenę odzwierciedlającą ich pracę B) Zarządzaj niepewnością drugiej części, aby dostosować się do intencji Master Testera

Sugerowane podejście (odpowiedź): 1. Master Tester losowo wybiera reprezentatywny zestaw próbek egzaminów, zaznacza część 2 i rozwija korelację z częścią 1. 2. Wykorzystaj korelację do oceny wszystkich danych Markerów Delegowanych (Część 1) vs wynik # 2) 3. Tam, gdzie korelacja różni się znacznie od Master Testera - znaczenie, które ma być do zaakceptowania przez Master Testera - zbadaj egzamin jako Master Tester, aby ponownie przypisać wynik.

Takie podejście zapewnia, że ​​główny tester jest odpowiedzialny za korelację i akceptowalne znaczenie. Korelacja może być tak prosta, jak wynik dla części nr 1 vs nr 2 lub względne wyniki dla pytań testu nr 1 vs nr 2.

Master Tester będzie mógł również ustawić jakość wyniku dla Części # 2 na podstawie „gumowatości” korelacji.

MarkR
źródło