Porównuję próbkę i sprawdzam, czy rozprowadza się ją jako jakąś dyskretną dystrybucję. Nie jestem jednak pewien, czy Kołmogorow-Smirnov ma zastosowanie. Wikipedia wydaje się sugerować, że tak nie jest. Jeśli nie, to jak mogę przetestować rozkład próbki?
29
Odpowiedzi:
Nie dotyczy to dystrybucji dyskretnych. Zobacz na przykład http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm .
Czy jest jakiś powód, dla którego nie można zastosować testu dopasowania chi-kwadrat? zobacz http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm aby uzyskać więcej informacji.
źródło
Jak to często bywa w statystykach, zależy to od tego, co masz na myśli .
Jeśli masz na myśli „Obliczam moją statystykę testową na próbce pobranej z rozkładu dyskretnego, a następnie sprawdzam standardowe tabele”, wtedy uzyskasz prawdziwy poziom błędu typu I niższy niż ten, który wybrałeś (być może znacznie niższy).
Ile zależy od „jak dyskretnej” dystrybucji. Jeśli prawdopodobieństwo któregokolwiek z wyników jest dość niskie (więc należałoby oczekiwać niskiego odsetka powiązanych wartości w danych), nie będzie to miało większego znaczenia - wiele osób nie miałoby problemu z uruchomieniem 5 % test na 4,5% powiedzieć. Na przykład, jeśli testujesz dyskretny mundur na [1,1000], prawdopodobnie nie musisz się martwić.
Ale jeśli istnieje duże prawdopodobieństwo powiązania wartości, można zaznaczyć wpływ na poziom błędu typu I. Jeśli uzyskasz poziom istotności 0,005, gdy chciałeś 0,05, może to stanowić problem, ponieważ odpowiednio wpłynie na moc.
Jeśli zamiast tego masz na myśli „Obliczam moją statystykę testową na próbce pobranej z rozkładu dyskretnego, a następnie używam odpowiedniej wartości krytycznej / obliczam odpowiednią wartość p dla mojej sytuacji” (na przykład za pomocą testu permutacyjnego), wtedy test jest z pewnością poprawny w tym sensie, że uzyskasz odpowiedni poziom błędu typu I - oczywiście do dyskrecji samej statystyki testowej. (Chociaż mogą istnieć lepsze testy dla konkretnego celu, tak jak zwykle są w przypadku ciągłym).
Zauważ, że rozkład samej statystyki testowej nie jest już wolny od dystrybucji, ale test permutacyjny pozwala uniknąć tego problemu.
Czasami więc jest w porządku stosowanie standardowych tabel nawet z dyskretnymi rozkładami, a nawet jeśli nie jest to w porządku, to nie tyle statystyki testowe, ile krytyczne wartości / wartości p, których używasz, to problem.
źródło
Uważam, że test KS wykorzystuje fakt, że jeśli jest zmienną losową z CDF to jest jednolitą zmienną losową. Nie dzieje się tak, jeśli nie jest ciągły. Na przykład, jeśli to Bernoulli, to , a nie jednolity.X F F(X) X X F(X)=X
źródło