Czy test Kołmogorowa-Smirnowa jest ważny przy rozkładach dyskretnych?

29

Porównuję próbkę i sprawdzam, czy rozprowadza się ją jako jakąś dyskretną dystrybucję. Nie jestem jednak pewien, czy Kołmogorow-Smirnov ma zastosowanie. Wikipedia wydaje się sugerować, że tak nie jest. Jeśli nie, to jak mogę przetestować rozkład próbki?

Wilhelm
źródło
+1 Piękny przykład błędnego zastosowania testu KS do danych z (wieloma) powiązaniami podano na stronie pomocy dla dodatku do statystyk Excela na stronie real-statistics.com/non-parametric-tests/goodness-of-fit- testy /… . Wynik jest błędny z wielu powodów. Zastrzegający lektor!
whuber
Dostępne są testy KS dla dyskretnych dystrybucji zerowych: en.wikipedia.org/wiki/…
Astrid

Odpowiedzi:

14

Nie dotyczy to dystrybucji dyskretnych. Zobacz na przykład http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm .

Czy jest jakiś powód, dla którego nie można zastosować testu dopasowania chi-kwadrat? zobacz http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm aby uzyskać więcej informacji.

PeterR
źródło
Przepraszam za włamanie, ale tak naprawdę nie rozumiem, dlaczego ma to zastosowanie tylko do ciągłej dystrybucji (KS i inne testy sprawdzające). Czy ktoś może mi wyjaśnić ten fakt?
Maurizio
6
@ Maurizio - statystyka testu KS ma taki sam rozkład we wszystkich rozkładach ciągłych , ale jeśli faktyczny rozkład nie jest ciągły, i próbuje się zbudować test poziomu przy założeniu, że rozkład jest ciągły, wówczas rzeczywisty poziom testu z być mniejszym niż . (por. Lehmann i Romano Testing Statistics Hypotheses, wydanie trzecie , str. 584). Nadal możesz wykonać test poziomu na podstawie statystyki KS, ale będziesz musiał znaleźć inną metodę uzyskania wartości krytycznej, np. Przez symulację. ααα
DavidR,
Istnieje dyskretny test KS: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid
7

Jak to często bywa w statystykach, zależy to od tego, co masz na myśli .

  1. Jeśli masz na myśli „Obliczam moją statystykę testową na próbce pobranej z rozkładu dyskretnego, a następnie sprawdzam standardowe tabele”, wtedy uzyskasz prawdziwy poziom błędu typu I niższy niż ten, który wybrałeś (być może znacznie niższy).

    Ile zależy od „jak dyskretnej” dystrybucji. Jeśli prawdopodobieństwo któregokolwiek z wyników jest dość niskie (więc należałoby oczekiwać niskiego odsetka powiązanych wartości w danych), nie będzie to miało większego znaczenia - wiele osób nie miałoby problemu z uruchomieniem 5 % test na 4,5% powiedzieć. Na przykład, jeśli testujesz dyskretny mundur na [1,1000], prawdopodobnie nie musisz się martwić.

    Ale jeśli istnieje duże prawdopodobieństwo powiązania wartości, można zaznaczyć wpływ na poziom błędu typu I. Jeśli uzyskasz poziom istotności 0,005, gdy chciałeś 0,05, może to stanowić problem, ponieważ odpowiednio wpłynie na moc.

  2. Jeśli zamiast tego masz na myśli „Obliczam moją statystykę testową na próbce pobranej z rozkładu dyskretnego, a następnie używam odpowiedniej wartości krytycznej / obliczam odpowiednią wartość p dla mojej sytuacji” (na przykład za pomocą testu permutacyjnego), wtedy test jest z pewnością poprawny w tym sensie, że uzyskasz odpowiedni poziom błędu typu I - oczywiście do dyskrecji samej statystyki testowej. (Chociaż mogą istnieć lepsze testy dla konkretnego celu, tak jak zwykle są w przypadku ciągłym).

    Zauważ, że rozkład samej statystyki testowej nie jest już wolny od dystrybucji, ale test permutacyjny pozwala uniknąć tego problemu.

Czasami więc jest w porządku stosowanie standardowych tabel nawet z dyskretnymi rozkładami, a nawet jeśli nie jest to w porządku, to nie tyle statystyki testowe, ile krytyczne wartości / wartości p, których używasz, to problem.

Glen_b - Przywróć Monikę
źródło
Jak zwykle Glen, twoja odpowiedź jest wysokiej jakości. Ale być może najlepsze jest to, że w rzeczywistości powtórzyłeś żart, który wypowiedziałem w tym poście na temat statystyk mówiących „to zależy”! stats.stackexchange.com/questions/182442/…
Sycorax mówi Przywróć Monikę
1
@ user777, który nie był przypadkowy; bawiło mnie to i myślałem, kiedy czytałem to pytanie „no cóż, to zależy” ... więc upewniłem się, że powiedziałem to wyraźnie, aby powtórzyć twój post.
Glen_b
1
Mój wieczór stał się lepszy. Twoje zdrowie!
Sycorax mówi Przywróć Monikę
2

Uważam, że test KS wykorzystuje fakt, że jeśli jest zmienną losową z CDF to jest jednolitą zmienną losową. Nie dzieje się tak, jeśli nie jest ciągły. Na przykład, jeśli to Bernoulli, to , a nie jednolity.XFF(X)XXF(X)=X

F RA
źródło