Często pojawia się w naukach społecznych, że zmienne, które powinny być w jakiś sposób rozłożone, powiedzmy normalnie, kończą się nieciągłością w ich rozkładzie wokół pewnych punktów.
Na przykład, jeśli istnieją określone wartości graniczne, takie jak „przejście / porażka” i jeśli środki te podlegają zniekształceniu, może wystąpić nieciągłość w tym punkcie.
Jednym z wybitnych przykładów (cytowanych poniżej) jest to, że ustandaryzowane wyniki testów uczniów są zwykle rozkładane zasadniczo wszędzie, z wyjątkiem 60%, gdzie jest bardzo mała masa od 50-60% i nadmierna masa około 60-65%. Dzieje się tak w przypadkach, gdy nauczyciele oceniają własne egzaminy uczniów. Autorzy badają, czy nauczyciele naprawdę pomagają uczniom zdawać egzaminy.
Najbardziej przekonujący dowód bez wątpienia pochodzi z pokazania wykresów krzywej dzwonowej z dużą nieciągłością wokół różnych wartości odcięcia dla różnych testów. Jak byś jednak zajął się opracowaniem testu statystycznego? Próbowali interpolacji, a następnie porównując ułamek powyżej lub poniżej, a także test t dla ułamka 5 punktów powyżej i poniżej wartości granicznej. Choć rozsądne, są one ad hoc. Czy ktoś może wymyślić coś lepszego?
Link: Zasady i dyskrecja w ocenie uczniów i szkół: przypadek egzaminów Regents w Nowym Jorku http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf
źródło
Odpowiedzi:
Ważne jest odpowiednie sformułowanie pytania i przyjęcie użytecznego koncepcyjnego modelu wyników.
Pytanie
Potencjalne progi oszustwa, takie jak 55, 65 i 85, są znane z góry niezależnie od danych: nie trzeba ich określać na podstawie danych. (Dlatego nie jest to ani problem wykrywania wartości odstających, ani problem dopasowania rozkładu). Test powinien ocenić dowody, że niektóre (nie wszystkie) wyniki tylko poniżej tych progów zostały przesunięte do tych progów (lub, być może, nieco powyżej tych progów).
Model koncepcyjny
W przypadku modelu koncepcyjnego kluczowe jest zrozumienie, że wyniki prawdopodobnie nie będą miały rozkładu normalnego (ani żadnego innego łatwo parametryzowanego rozkładu). Jest to całkowicie jasne w opublikowanym przykładzie i we wszystkich innych przykładach z oryginalnego raportu. Te wyniki stanowią mieszankę szkół; nawet jeśli dystrybucja w jakiejkolwiek szkole była normalna (nie jest), mieszanina prawdopodobnie nie będzie normalna.
Proste podejście akceptuje fakt, że istnieje prawdziwy rozkład wyników: ten, który zostałby zgłoszony, z wyjątkiem tej szczególnej formy oszukiwania. Jest to zatem ustawienie nieparametryczne. To wydaje się zbyt szerokie, ale istnieją pewne cechy rozkładu wyników, które można przewidzieć lub zaobserwować w rzeczywistych danych:
Liczby wyników , oraz będą ściśle skorelowane, .i i + 1 1 ≤ i ≤ 99i−1 i i+1 1≤i≤99
Będą różnice w tych liczbach wokół jakiejś wyidealizowanej gładkiej wersji rozkładu wyników. Te zmiany będą zwykle miały rozmiar równy pierwiastkowi kwadratowemu zliczenia.
Konstruowanie testu
ponieważ przy połączy to duży ujemny spadek z ujemnym dużym dodatnim wzrostem , zwiększając w ten sposób efekt oszukiwania .i=t−1 c(t+1)−c(t) c(t)−c(t−1)
Mam zamiar postawić hipotezę - i można to sprawdzić - że szeregowa korelacja zliczeń w pobliżu progu jest dość mała. (Korelacja szeregowa gdzie indziej nie ma znaczenia.) Oznacza to, że wariancja wynosi okołoc′′(t−1)=c(t+1)−2c(t)+c(t−1)
Wcześniej zasugerowałem, że dla wszystkich (coś, co można również sprawdzić). Skądvar(c(i))≈c(i) i
powinien mieć w przybliżeniu wariancję jednostkową. W przypadku populacji o dużej liczbie punktów (opublikowana wygląda na około 20 000) możemy również spodziewać się rozkładu normalnego . Ponieważ oczekujemy, że wysoce ujemna wartość będzie wskazywać na wzorzec oszukiwania, z łatwością uzyskujemy test rozmiaru : writing dla cdf standardowego rozkładu normalnego, odrzucamy hipotezę o braku oszustwa na progu gdy .c′′(t−1) α Φ t Φ(z)<α
Przykład
Weźmy na przykład ten zestaw prawdziwych wyników testu, narysowanych na podstawie mieszaniny trzech rozkładów normalnych:
Do tego zastosowałem harmonogram oszustwa na progu zdefiniowanym przez . To skupia prawie wszystkie oszustwa na jednym lub dwóch wynikach bezpośrednio poniżej 65:t=65 δ(i)=exp(−2i)
Aby zrozumieć, co robi test, obliczyłem dla każdego wyniku, a nie tylko , i nakreśliłem go w stosunku do wyniku:z t
(W rzeczywistości, aby uniknąć problemów z małymi liczbami, najpierw dodałem 1 do każdej liczby od 0 do 100, aby obliczyć mianownik .)z
Wahania w pobliżu 65 są widoczne, podobnie jak tendencja do wszystkich innych wahań wielkości około 1, zgodnie z założeniami tego testu. Statystyka testu wynosi przy odpowiedniej wartości p , co jest niezwykle znaczącym wynikiem. Porównanie wizualne z liczbą w samym pytaniu sugeruje, że ten test zwróciłby wartość p co najmniej tak małą.z=−4.19 Φ(z)=0.0000136
(Należy jednak pamiętać, że sam test nie wykorzystuje tego wykresu, który pokazano w celu zilustrowania pomysłów. Test sprawdza tylko wykreśloną wartość na progu, nigdzie indziej. Niemniej jednak dobrą praktyką byłoby tworzenie takiego wykresu aby potwierdzić, że statystyki testowe naprawdę wyodrębniają oczekiwane progi jako loci oszukiwania i że wszystkie inne wyniki nie podlegają takim zmianom. Tutaj widzimy, że przy wszystkich innych wynikach występują wahania między około -2 a 2, ale rzadko Zwróć też uwagę, że tak naprawdę nie trzeba obliczać odchylenia standardowego wartości na tym wykresie, aby obliczyć , unikając w ten sposób problemów związanych z efektami oszustwa zwiększającymi fluktuacje w wielu lokalizacjach.)z
Przy stosowaniu tego testu do wielu progów rozsądne byłoby dopasowanie wielkości testu Bonferroniego. Dobrym pomysłem byłoby również dodatkowe dostosowanie w przypadku zastosowania do wielu testów jednocześnie.
Ocena
Tej procedury nie można poważnie zaproponować do użycia, dopóki nie zostanie przetestowana na rzeczywistych danych. Dobrym sposobem byłoby zebranie ocen za jeden test i zastosowanie niekrytycznej oceny za test jako wartości progowej. Przypuszczalnie taki próg nie był przedmiotem tej formy oszukiwania. Symuluj oszustwo zgodnie z tym modelem koncepcyjnym i badaj symulowany rozkład . Wskazuje to (a) czy wartości p są dokładne i (b) moc testu do wskazania symulowanej formy oszukiwania. Rzeczywiście, można zastosować takie badanie symulacyjne na samych danych, które ocenia się, zapewniając niezwykle skuteczny sposób sprawdzenia, czy test jest odpowiedni i jaka jest jego rzeczywista moc. Ponieważ statystyki testowez z jest tak proste, że symulacje będą wykonalne i szybkie do wykonania.
źródło
Sugeruję dopasowanie modelu, który wyraźnie przewiduje spadki, a następnie pokazanie, że znacznie lepiej pasuje do danych niż naiwny.
Potrzebujesz dwóch komponentów:
Jednym z możliwych modeli pojedynczego progu (wartości ) jest: gdziet
Zazwyczaj nie można dużo podnieść wyników. Podejrzewam, że rozkład wykładniczy , gdzie jest proporcją ponownie sprawdzonych (zmanipulowanych) wyników. am(s′→t)≈aqt−s′ a
Jako rozkład początkowy możesz spróbować użyć rozkładu Poissona lub Gaussa. Oczywiście najlepiej byłoby mieć ten sam test, ale dla jednej grupy nauczycieli podać progi, a dla drugiej - bez progów.
Jeśli jest więcej progów, można zastosować tę samą formułę, ale z poprawkami dla każdego . Być może byłoby inne (np. Ponieważ różnica między zaliczeniem może być ważniejsza niż między dwoma zaliczonymi ocenami).a iti ai
Uwagi:
źródło
Podzielę ten problem na dwa podproblemy:
Istnieją różne sposoby rozwiązania jednego z podproblemów.
Wydaje mi się, że rozkład Poissona pasowałby do danych, gdyby były one niezależnie i identycznie rozłożone (iid) , co oczywiście uważamy, że nie jest. Jeśli naiwnie spróbujemy oszacować parametry rozkładu, będziemy wypaczać wartości odstające. Dwa możliwe sposoby przezwyciężenia tego to użycie technik regresji silnej lub metody heurystycznej, takiej jak walidacja krzyżowa.
W przypadku wykrywania wartości odstających ponownie istnieje wiele podejść. Najprościej jest użyć przedziałów ufności z rozkładu, który dopasowaliśmy w etapie 1. Inne metody obejmują metody ładowania początkowego i podejścia Monte-Carlo.
Chociaż nie powie ci to, że w rozkładzie występuje „skok”, powie ci, czy jest więcej wartości odstających niż oczekiwano dla wielkości próby.
Bardziej złożonym podejściem byłoby zbudowanie różnych modeli danych, takich jak rozkłady złożone, i zastosowanie pewnego rodzaju metody porównywania modeli (AIC / BIC) w celu ustalenia, który z modeli najlepiej pasuje do danych. Jeśli jednak po prostu szukasz „odchylenia od oczekiwanego rozkładu”, wydaje się to przesadą.
źródło