Jak mogę wykorzystać te dane do kalibracji markerów o różnych poziomach hojności przy ocenie prac studentów?

9

12 nauczycieli uczy 600 uczniów. 12 kohort nauczanych przez tych nauczycieli mieści się w przedziale od 40 do 90 studentów i oczekujemy systematycznych różnic między kohortami, ponieważ absolwenci byli nieproporcjonalnie przydzieleni do poszczególnych kohort, a wcześniejsze doświadczenia wykazały, że średnia ocena absolwentów jest znacznie wyższa niż studenci studiów licencjackich.

Nauczyciele ocenili wszystkie artykuły ze swojej kohorty i przyznali im ocenę na 100.

Każdy nauczyciel spojrzał również na jeden losowo wybrany artykuł spośród trzech innych nauczycieli i przyznał mu ocenę na 100. Każdy nauczyciel ma trzy swoje prace oznaczone przez innego nauczyciela. W ten sposób oznaczono krzyżowo 36 różnych artykułów i nazywam to moimi danymi kalibracyjnymi.

Widzę też, ilu absolwentów było w każdej grupie.

Moje pytania to:

A) Jak mogę wykorzystać te dane kalibracyjne, aby dostosować oryginalne znaki, aby były bardziej sprawiedliwe? W szczególności chciałbym zmyć jak najwięcej efektów nadmiernie hojnych / niewdzięcznych twórców.

B) Jak odpowiednie są moje dane kalibracyjne? Nie miałem wyboru w raczej ograniczonych 36 punktach danych kalibracyjnych, które otrzymałem w tym kursie, i nie mam żadnej opcji, aby zebrać więcej w bieżącym semestrze. Jeśli jednak ta sytuacja się powtórzy, być może uda mi się zebrać więcej danych kalibracyjnych lub zgromadzić różne rodzaje danych kalibracyjnych.

To pytanie jest spokrewnione z popularnym pytaniem, które zadałem na: Jak najlepiej radzić sobie z efektami markerów o różnych poziomach hojności w ocenianiu prac studentów? . Jest to jednak inny kurs i nie jestem pewien, jak przydatne byłoby czytanie tego pytania jako tła dla obecnego, ponieważ głównym problemem było to, że nie miałem danych kalibracyjnych.

user1205901 - Przywróć Monikę
źródło

Odpowiedzi:

6

Brzmi to jak świetna okazja do zastosowania systemu rekomendującego rozkład na czynniki . W skrócie działa to w następujący sposób:

  • Umieścić swoje uwagi do częściowo obserwowanej macierzy gdzie jest nauczycielem wynik dał studenta .MMijij

  • Załóżmy, że macierz ta jest produktem zewnętrznym niektórych ukrytych wektorów cech, i - czyli .tsMij=tisj

  • Rozwiąż ukryte wektory cech, które minimalizują kwadratowy błąd rekonstrukcji (gdzie suma obejmuje wszystkie obserwowane komórki ).i,j(tisjMij)2M

  • Możesz zrobić ten styl maksymalizacji oczekiwań, ustalając przypuszczenie dla i rozwiązując dla za pomocą najmniejszych kwadratów, a następnie ustalając to przypuszczenie dla i rozwiązując dla i iterując aż do zbieżności.tsst

Zauważ, że stanowi to dość silne założenie na temat uprzedzeń nauczyciela - w szczególności, jeśli uważasz, że utajone cechy uczniów są ich „prawdziwym wynikiem”, to uprzedzenie nauczyciela zwielokrotnia każdy prawdziwy wynik przez stałą kwotę (w celu uczyń go addytywnym, zamiast tego potęgujesz wyniki wstawiane do macierzy, a następnie uczysz się wykładniczych „prawdziwych wyników”). Przy tak małej ilości danych kalibracyjnych prawdopodobnie nie będziesz mógł zajść daleko, nie przyjmując silnego założenia tego formularza, ale jeśli posiadasz więcej danych, możesz dodać drugi wymiar ukrytych cech itp. (Tj. i ponownie spróbuj zminimalizować kwadratowy błąd rekonstrukcji).Mij=k=1nsiktkj


EDYCJA: aby mieć dobrze zdefiniowany problem, musisz mieć więcej operacji macierzowych niż ukrytych parametrów (lub możesz użyć pewnego rodzaju regularyzacji). Po prostu ledwo go masz (masz 636 obserwacji i 612 ukrytych parametrów), więc faktoryzacja macierzy może nie działać bardzo dobrze - nie pracowałem z nimi na tak małych próbkach, więc tak naprawdę nie wiem.

Jeśli kalibracja okaże się niewystarczająca do zastosowania dobrego modelu rekomendującego, możesz wypróbować regresję wielopoziomową Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(ignorując dane kalibracyjne), aby wyodrębnić szacunki addytywnego nauczyciela, a następnie sprawdzić, czy to odchylenie jest zgodne z danymi kalibracyjnymi wzięli. (Jeśli to możliwe, należy zezwolić nauczycielowi na heteroskedastyczność.) Jest to bardziej ad hoc, ale może powodować mniej poważne problemy z gromadzeniem danych.

Ben Kuhn
źródło
Aby rozwinąć tę kwestię, prawdopodobnie zacznę od prostego modelu z naprawionymi efektami nauczyciela i potencjalnie klastrowymi solidnymi standardowymi błędami (zobacz ten post na blogu, aby omówić to w R), a następnie porównuję ustalone efekty dla wszelkich wartości odstających. W R coś takiego lm(score ~ gradStudent + ... + teacherIDpowinno to zrobić.
iacobus
2

Oto kilka powiązanych podejść.

Weź zestaw dokumentów oznaczonych przez więcej niż jednego nauczyciela, ponieważ zawierają one najwięcej informacji o efektach nauczyciela, a poza tymi dokumentami efekty nauczyciela i kohorty są zakłócone (jeśli istnieje jakiś sposób na uzyskanie efektu kohorty - być może poprzez GPA lub jakiś inny predyktor, na przykład, wtedy możesz użyć wszystkich danych, ale to trochę skomplikuje modele).

Oznacz uczniów , a markery . Niech zestaw znaków będzie .i=1,2,...nj=1,2,...,myij,i=1,2,...m

Najpierw musisz rozważyć swój model pod kątem zastosowania efektu markera. Czy to jest addytywne? Czy to jest multiplikatywne? Czy musisz się martwić efektami granicznymi (np. Czy efekt addytywny lub multiplikatywny w skali logit byłby lepszy)?

Wyobraź sobie dwa podane znaczniki na dwóch papierach i wyobraź sobie, że drugi znacznik jest bardziej hojny. Powiedzmy, że pierwszy znacznik dałby papiery 30 i 60. Czy drugi znacznik będzie miał tendencję do dodawania stałej liczby znaków (powiedzmy 6 znaków) do obu? Czy będą mieli tendencję do dodawania stałych wartości procentowych (powiedzmy 10% do obu, lub 3 ocen w porównaniu do 6 ocen)? Co jeśli pierwszy marker dał 99? - co by się wtedy stało? Co z 0? Co jeśli drugi znacznik byłby mniej hojny? co by się stało przy 99 lub 0? (dlatego wspominam o modelu logit - znaki można traktować jako proporcję możliwych znaków ( ), a następnie efektem markera może być dodanie stałej (powiedzmy) do logit - ie ).pij=mij/100plog(pij/(1pij)

(Nie będziesz mieć tutaj wystarczających danych, aby oszacować formę hojności, a także jej wielkość. Musisz wybrać model ze swojego zrozumienia sytuacji. Będziesz także musiał zignorować każdą możliwość interakcji; nie mieć na to dane)

Możliwość 1 - zwykły model addytywny. Może to być odpowiednie, jeśli żadne znaki nie były tak naprawdę bliskie 0 lub 100:

Rozważ model taki jakE(yij)=μi+τj

Jest to zasadniczo dwukierunkowa ANOVA. Potrzebujesz na to ograniczeń, więc możesz skonfigurować kodowanie odchylenia / ustawić model tak, aby efekty znacznika wynosiły 0, lub możesz ustawić model, w którym jeden znacznik jest linią podstawową (którego efekt wynosi 0 i którego znaczniki ty spróbuje dostosować każdy inny znacznik w kierunku).

Następnie weź wartości i dostosuj szerszą populację znaków .τ^jykjadj=ykjτ^j

Możliwość 2: W rzeczywistości podobny pomysł, ale . Tutaj możesz dopasować nieliniowy model najmniejszych kwadratów lub GLM z łączem logarytmicznym (prawdopodobnie pochylę się w kierunku drugiego z tych dwóch). Znowu potrzebujesz ograniczenia na s.E(yij)=μiτjτ

Wtedy odpowiednim dostosowaniem byłoby podzielenie przez .τj^

Możliwość 3: dodatek w skali logit. Może to być bardziej odpowiednie, jeśli niektóre znaki zbliżą się do 0 lub 100. Będzie wyglądać w przybliżeniu multiplikatywnie w przypadku bardzo małych znaków, addytywnie w przypadku ocen średnich i w przybliżeniu multiplikatywnych w przypadku bardzo wysokich ocen. Możesz zastosować regresję beta lub quasi-dwumianowy GLM z łączem logit, aby dopasować ten model.1p=(100m)/100

Glen_b - Przywróć Monikę
źródło