Potrzebuję pomocy w znalezieniu właściwego sposobu obliczania zwycięzców na naszych targach naukowych. Nie chcę, aby moja nieznajomość statystyki i matematyki przeszkadzała dziecku w wygrywaniu. (w grę wchodzi wiele świadczeń stypendialnych i awansowych). Z góry dziękuje za twoją pomoc.
Najpierw małe tło tego, jak konfigurujemy rzeczy:
Nasze targi zazwyczaj obejmują około 600 projektów studenckich. Projekty te są realizowane i prezentowane przez poszczególnych studentów lub zespół studentów. Zespół może składać się z 2 lub 3 dzieci.
Uczniowie są podzieleni na dwa działy: podstawowy (klasy 6-8) i wtórny (klasy 9-12). Każdy dział ma różne kategorie: 9 kategorii dla projektów podstawowych i 17 kategorii dla projektów drugorzędnych.
Nagrody przyznawane są za pierwsze, drugie i trzecie miejsce dla każdej kategorii w każdej dywizji. Wyróżnienia są również przyznawane za miejsca poza trzecim miejscem.
Do każdego projektu przydzielamy od 4 do 6 sędziów. Nasze zadania wykonujemy w oparciu o kwalifikacje sędziów, ich preferencje dotyczące kategorii i ich wcześniejsze doświadczenia z ocenianiem. (bardziej doświadczeni są przypisani do projektów pionu wyższego szczebla).
Jak sędziowie oceniają projekt:
Do każdego projektu przypisanych jest 5 kryteriów. Każde kryterium może otrzymać od 1 do 20 punktów. Ogólne kryteria to:
- Ogólny cel + hipoteza + wykorzystanie zasobów ( 1..20 )
- Projektowanie + procedury ( 1..20 )
- Zbieranie danych + wyniki ( 1..20 )
- Dyskusja + zakończenie ( 1..20 )
- Wywiad ( 1..20 )
W przypadku projektów zespołowych ocenia się szóste kryterium zwane „odliczeniem od zespołu”, w którym sędzia może odliczyć punkty ( do 15 ) dla członków drużyny, którzy nie brali udziału lub nie pojawili się.
- Odliczenie drużynowe ( 0–15 )
Sędzia może więc zdobyć każdy projekt od 5 do 100 punktów. Jeśli projekt jest projektem zespołowym, wynik można zmniejszyć o 15 punktów.
Surowe dane:
W ciągu kilku godzin zbieramy do 3600 punktów od sędziów. Te wyniki są wprowadzane do bazy danych, w której mogę wykonywać wszelkiego rodzaju sortowanie, uśrednianie, standardowe obliczenia odchyleń itp. Po prostu nie wiem dokładnie, co powinienem zrobić z tymi surowymi wynikami. W tej chwili robię prostą średnią dla każdego projektu, ale martwię się, że nie dostosowuję się do uprzedzeń sędziowskich, odliczeń drużynowych lub innych rzeczy, których nie rozważam.
Pożądany rezultat:
Na koniec chciałbym przetworzyć wyniki, aby móc przyznać projekty za pierwsze, drugie i trzecie miejsce dla każdej kategorii, a następnie wyróżnienia za kolejne miejsca. Chciałbym mieć pewność, że pozycje zostały poprawnie obliczone, a wygrane dzieci zasługują na uznanie (i nagrody).
Wielkie dzięki za przeczytanie mojego długiego pytania i pomoc w zrozumieniu tego. Z przyjemnością odpowiem na wszelkie dodatkowe pytania.
źródło
Odpowiedzi:
Myślę, że ta odpowiedź jest prawdopodobnie zbyt hojną etykietą dla moich myśli tutaj. Uwielbiam analizę danych eksploracyjnych i jestem wielkim fanem box-plot, co znajdzie odzwierciedlenie w moich komentarzach.
Cześć, to dużo wyników. :) Wygląda na to, że masz co najmniej 78 projektów na 600, które znajdują się w pierwszej 3 (
[9+17]x3
) plus wyróżnienia. Zwykle powiedziałbym, aby pobrać próbki z górnej i środkowej części każdej kategorii, aby przeprowadzić kontrolę punktacji, ale byłoby to bardzo uciążliwe w twoim przypadku ze względu na liczby, które masz - i to tylko ty finalizujesz punktację. :)Mam nadzieję, że możesz mieć dostępny pakiet statystyk, ponieważ mam kilka sugestii, których możesz użyć poniżej.
Czy spojrzałeś na rozkład wyników w każdej kategorii? Czy 3, 5 lub 8 projektów jest bardzo blisko wyników? Sugerowałoby to, że jakość projektów jest bardzo podobna i bez względu na to, co robisz, prawdopodobnie będzie przynajmniej postrzeganie arbitralności w odniesieniu do końcowych wyników.
Nie jestem pewien, ile projektów ocenia każdy sędzia. Zakładając, że uzyskają rozsądną liczbę (powiedzmy> 10, chociaż im wyższa, tym lepiej), dla każdego sędziego możesz obliczyć medianę i zakres międzykwartylowy dla całkowitej oceny przyznanej za każdy oceniany projekt (masz tak wiele atrybutów, prawdopodobnie nie jest to warte spojrzenia na każdego z nich osobno). Czy jacyś sędziowie wydają szczególnie wysokie lub szczególnie niskie wyniki? Czy jacyś sędziowie wydają się punktować konsekwentnie w środku, więc prawdopodobnie dają 10, może to być pokazane przez stosunkowo niewielki przedział międzykwartylowy i całkowitą medianę wyników wokół środka zakresu możliwych wartości.
W przypadku projektów zespołowych można porównać ich umiejscowienie na podstawie łącznej liczby punktów do ich umiejscowienia po zastosowaniu odliczenia drużynowego. Czy potrącenia drużynowe wpływają na drużyny, które w innym przypadku znalazłyby się w pierwszej trójce?
To tylko sugestie na początek. Myślę, że wizualizacja danych według tych wskazówek dałaby kilka dobrych wskaźników na temat tego, czy rozmieszczanie wydaje się uczciwe.
Aktualizacja: jest to interesująco trudny problem. Wygląda na to, że każdy pojedynczy sędzia nie ocenia wystarczającej liczby projektów, abyśmy mogli wymyślić współczynnik ważenia dla każdego sędziego (aby wziąć pod uwagę stronniczość sędziego), ponieważ nie mamy wystarczającej ilości danych, aby móc zmierzyć inter - rzetelność oceny wśród sędziów, po prostu nie ma wystarczającego nakładania się, aby sędziowie oceniający te same projekty mogli to zrobić. Czy spojrzałeś na zakres punktacji dla kilku najlepszych projektów - czy były wyraźne różnice między nimi a projektami o niższej punktacji (granice naturalne?), Jak blisko wyników były projekty najlepsze?
Z ciekawości sędziowie otrzymywali kryteria punktacji, więc mieli niewielką elastyczność, jak dawać wyniki dla każdego kryterium (np. Dać 1 punkt za przedstawienie hipotezy zerowej, 1 punkt za podanie jednej lub więcej alternatywnych hipotez ...) lub czy tylko znali całkowitą liczbę punktów, którą mogliby przyznać, a resztę pozostawiono im? Gdyby mieli przewodnik oceniania, byłbym bardziej pewny, że wyniki były dość dokładne.
źródło