Jak uczciwie określić zwycięzców regionalnych targów nauki?

Potrzebuję pomocy w znalezieniu właściwego sposobu obliczania zwycięzców na naszych targach naukowych. Nie chcę, aby moja nieznajomość statystyki i matematyki przeszkadzała dziecku w wygrywaniu. (w grę wchodzi wiele świadczeń stypendialnych i awansowych). Z góry dziękuje za twoją pomoc.

Najpierw małe tło tego, jak konfigurujemy rzeczy:

Nasze targi zazwyczaj obejmują około 600 projektów studenckich. Projekty te są realizowane i prezentowane przez poszczególnych studentów lub zespół studentów. Zespół może składać się z 2 lub 3 dzieci.

Uczniowie są podzieleni na dwa działy: podstawowy (klasy 6-8) i wtórny (klasy 9-12). Każdy dział ma różne kategorie: 9 kategorii dla projektów podstawowych i 17 kategorii dla projektów drugorzędnych.

Nagrody przyznawane są za pierwsze, drugie i trzecie miejsce dla każdej kategorii w każdej dywizji. Wyróżnienia są również przyznawane za miejsca poza trzecim miejscem.

Do każdego projektu przydzielamy od 4 do 6 sędziów. Nasze zadania wykonujemy w oparciu o kwalifikacje sędziów, ich preferencje dotyczące kategorii i ich wcześniejsze doświadczenia z ocenianiem. (bardziej doświadczeni są przypisani do projektów pionu wyższego szczebla).

Jak sędziowie oceniają projekt:

Do każdego projektu przypisanych jest 5 kryteriów. Każde kryterium może otrzymać od 1 do 20 punktów. Ogólne kryteria to:

Ogólny cel + hipoteza + wykorzystanie zasobów ( 1..20 )
Projektowanie + procedury ( 1..20 )
Zbieranie danych + wyniki ( 1..20 )
Dyskusja + zakończenie ( 1..20 )
Wywiad ( 1..20 )

W przypadku projektów zespołowych ocenia się szóste kryterium zwane „odliczeniem od zespołu”, w którym sędzia może odliczyć punkty ( do 15 ) dla członków drużyny, którzy nie brali udziału lub nie pojawili się.

Odliczenie drużynowe ( 0–15 )

Sędzia może więc zdobyć każdy projekt od 5 do 100 punktów. Jeśli projekt jest projektem zespołowym, wynik można zmniejszyć o 15 punktów.

Surowe dane:

W ciągu kilku godzin zbieramy do 3600 punktów od sędziów. Te wyniki są wprowadzane do bazy danych, w której mogę wykonywać wszelkiego rodzaju sortowanie, uśrednianie, standardowe obliczenia odchyleń itp. Po prostu nie wiem dokładnie, co powinienem zrobić z tymi surowymi wynikami. W tej chwili robię prostą średnią dla każdego projektu, ale martwię się, że nie dostosowuję się do uprzedzeń sędziowskich, odliczeń drużynowych lub innych rzeczy, których nie rozważam.

Pożądany rezultat:

Na koniec chciałbym przetworzyć wyniki, aby móc przyznać projekty za pierwsze, drugie i trzecie miejsce dla każdej kategorii, a następnie wyróżnienia za kolejne miejsca. Chciałbym mieć pewność, że pozycje zostały poprawnie obliczone, a wygrane dzieci zasługują na uznanie (i nagrody).

Wielkie dzięki za przeczytanie mojego długiego pytania i pomoc w zrozumieniu tego. Z przyjemnością odpowiem na wszelkie dodatkowe pytania.

data-transformation standard-deviation rating Mike Davie
źródło

Interesujące i trudne pytanie, a ty wskazałeś niektóre kluczowe kwestie. Ilu sędziów ogółem, więc ile projektów ocenia każdy z nich? (dobre pojęcie zarówno o zakresie, jak i średniej byłoby dobre). Czy 26 kategorii wyklucza się wzajemnie? Mam przeczucie, że najlepszą odpowiedzią może być tylko uśrednienie każdego projektu, ale może być możliwe dostosowanie dla sędziów. Z zainteresowaniem przeczytam odpowiedzi!

Peter Ellis,

Dziękuję za twoje pierwsze zainteresowanie. Dodałem więcej informacji do odpowiedzi poniżej. Jeśli masz jakiś wgląd, byłbym wdzięczny za twoją pomoc.

Mike Davie,

Myślę, że ta odpowiedź jest prawdopodobnie zbyt hojną etykietą dla moich myśli tutaj. Uwielbiam analizę danych eksploracyjnych i jestem wielkim fanem box-plot, co znajdzie odzwierciedlenie w moich komentarzach.

Cześć, to dużo wyników. :) Wygląda na to, że masz co najmniej 78 projektów na 600, które znajdują się w pierwszej 3 ( [9+17]x3) plus wyróżnienia. Zwykle powiedziałbym, aby pobrać próbki z górnej i środkowej części każdej kategorii, aby przeprowadzić kontrolę punktacji, ale byłoby to bardzo uciążliwe w twoim przypadku ze względu na liczby, które masz - i to tylko ty finalizujesz punktację. :)

Mam nadzieję, że możesz mieć dostępny pakiet statystyk, ponieważ mam kilka sugestii, których możesz użyć poniżej.

Czy spojrzałeś na rozkład wyników w każdej kategorii? Czy 3, 5 lub 8 projektów jest bardzo blisko wyników? Sugerowałoby to, że jakość projektów jest bardzo podobna i bez względu na to, co robisz, prawdopodobnie będzie przynajmniej postrzeganie arbitralności w odniesieniu do końcowych wyników.

Nie jestem pewien, ile projektów ocenia każdy sędzia. Zakładając, że uzyskają rozsądną liczbę (powiedzmy> 10, chociaż im wyższa, tym lepiej), dla każdego sędziego możesz obliczyć medianę i zakres międzykwartylowy dla całkowitej oceny przyznanej za każdy oceniany projekt (masz tak wiele atrybutów, prawdopodobnie nie jest to warte spojrzenia na każdego z nich osobno). Czy jacyś sędziowie wydają szczególnie wysokie lub szczególnie niskie wyniki? Czy jacyś sędziowie wydają się punktować konsekwentnie w środku, więc prawdopodobnie dają 10, może to być pokazane przez stosunkowo niewielki przedział międzykwartylowy i całkowitą medianę wyników wokół środka zakresu możliwych wartości.

W przypadku projektów zespołowych można porównać ich umiejscowienie na podstawie łącznej liczby punktów do ich umiejscowienia po zastosowaniu odliczenia drużynowego. Czy potrącenia drużynowe wpływają na drużyny, które w innym przypadku znalazłyby się w pierwszej trójce?

To tylko sugestie na początek. Myślę, że wizualizacja danych według tych wskazówek dałaby kilka dobrych wskaźników na temat tego, czy rozmieszczanie wydaje się uczciwe.

Aktualizacja: jest to interesująco trudny problem. Wygląda na to, że każdy pojedynczy sędzia nie ocenia wystarczającej liczby projektów, abyśmy mogli wymyślić współczynnik ważenia dla każdego sędziego (aby wziąć pod uwagę stronniczość sędziego), ponieważ nie mamy wystarczającej ilości danych, aby móc zmierzyć inter - rzetelność oceny wśród sędziów, po prostu nie ma wystarczającego nakładania się, aby sędziowie oceniający te same projekty mogli to zrobić. Czy spojrzałeś na zakres punktacji dla kilku najlepszych projektów - czy były wyraźne różnice między nimi a projektami o niższej punktacji (granice naturalne?), Jak blisko wyników były projekty najlepsze?

Z ciekawości sędziowie otrzymywali kryteria punktacji, więc mieli niewielką elastyczność, jak dawać wyniki dla każdego kryterium (np. Dać 1 punkt za przedstawienie hipotezy zerowej, 1 punkt za podanie jednej lub więcej alternatywnych hipotez ...) lub czy tylko znali całkowitą liczbę punktów, którą mogliby przyznać, a resztę pozostawiono im? Gdyby mieli przewodnik oceniania, byłbym bardziej pewny, że wyniki były dość dokładne.

Michelle
źródło

Też byłbym ciekawy co do rozrzutu wyników - czy są wyraźnie jakieś „najlepsze wyniki”, czy też jest kępa i kto wychodzi na to, jest nieco… nieprzejrzysty pod względem procesowym. Podobnie jak w przypadku rekrutacji na studia, te dzieci doświadczą później :)

Fomite,

Dzięki Michelle za twoje przemyślenia. Naprawdę doceniam twój czas. Aby odpowiedzieć na twoje pytania, sędziowie oceniają tylko niewielką liczbę projektów. Mamy minimum dla każdej dywizji: 4 razy dla szkoły podstawowej i 5 lub 6 razy dla szkoły średniej (5 razy dla gimnazjalistów i 6 razy dla seniorów).

Mike Davie,

Muszę wyjaśnić powyższe. Minimalne oceny są za projekt, nie tyle razy sędziowie oceniają projekty podczas targów. Typowy sędzia oceni podczas targów od 8 do 15 projektów. Liczba ta zależy od dostępności sędziów, ich kwalifikacji, chęci pomocy itp.

Mike Davie

Dobra odpowiedź Michelle. Kilka pomysłów ode mnie: 1) Zdecydowanie daj sędziom jakąś rubrykę, aby zachęcić do wspólnych standardów; 2) staraj się mieć taką samą liczbę sędziów na projekt, jeśli to możliwe (w przeciwnym razie projekty z mniejszą liczbą sędziów będą miały większą wariancję, a tym samym większą szansę na awans na szczyt - lub na dół) i 3) Myślę, że będziesz musiał użyj tylko średniej, ale jeśli posiadasz wiedzę i oprogramowanie, możesz dopasować model efektów mieszanych, oceniając go jako efekt losowy i zobacz, czy to zmieni wynik. Co jeśli to zrobi? Prawdopodobnie nadal używamy średniej ....

Peter Ellis

Jeszcze raz dziękuję za wkład wszystkich. Po tym, jak przez pewien czas zaprzątało mi to głowę, postanowiłem sprawdzić, jak ocenia się projekty na poziomie międzynarodowym (jeden krok konkursowy nad naszymi targami). Międzynarodowe targi noszą nazwę ISEF. Każdego roku wysyłamy 5 najlepszych studentów do ISEF.

Mike Davie

Jak uczciwie określić zwycięzców regionalnych targów nauki?

Odpowiedzi: