Dlaczego działa test Kołmogorowa-Smirnowa?

25

Czytając o 2-próbnym teście KS, rozumiem dokładnie, co on robi, ale nie rozumiem, dlaczego to działa .

Innymi słowy, mogę wykonać wszystkie kroki, aby obliczyć funkcje rozkładu empirycznego, znaleźć maksymalną różnicę między nimi, aby znaleźć statystykę D, obliczyć wartości krytyczne, przekonwertować statystykę D na wartość p itp.

Ale nie mam pojęcia, dlaczego nic z tego nie mówi mi nic o dwóch dystrybucjach.

Ktoś równie łatwo mógł mi powiedzieć, że muszę przeskoczyć osła i policzyć, jak szybko ucieka, a jeśli prędkość jest mniejsza niż 2 km / h, to odrzucam hipotezę zerową. Jasne, że mogę zrobić to, co mi kazałeś, ale co to ma wspólnego z hipotezą zerową?

Dlaczego działa test 2-próbkowy KS? Co obliczenie maksymalnej różnicy między ECDF ma wspólnego z tym, jak różne są te dwa rozkłady?

Każda pomoc jest mile widziana. Nie jestem statystykiem, więc załóż, że jestem idiotą, jeśli to możliwe.

Darcy
źródło
4
Witamy w CV, Darcy! Świetne pytanie!
Alexis,
1
Przeskocz nad osłem ... :)
Richard Hardy

Odpowiedzi:

9

Zasadniczo test jest spójny jako bezpośredni wynik twierdzenia Glivenko Cantelli, jednego z najważniejszych wyników procesów empirycznych i być może statystyki.

GC mówi nam, że statystyka testu Kołmogorowa Smirnowa wynosi 0 jako pod hipotezą zerową. Może się to wydawać intuicyjne, dopóki nie poradzisz sobie z prawdziwą analizą i nie ograniczysz twierdzeń. Jest to objawienie, ponieważ proces ten można uznać za niezliczoną liczbę nieskończoną liczbę procesów losowych, więc prawa lub prawdopodobieństwo doprowadziłyby do przekonania, że ​​zawsze istnieje jeden punkt, który mógłby przekroczyć dowolną granicę epsilon, ale nie, supremum zbiegnie się w długi bieg.n

Jak długo? Mmyyeeaa nie wiem. Siła testu jest dość wątpliwa. Nigdy nie użyłbym tego w rzeczywistości.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf

AdamO
źródło
2
+1 Cześć AdamO! Masz zdanie od jednego do dwóch, że moc jest „trochę wątpliwa?” Chciałbym tę perspektywę (zebrałem, że test uważa się za łatwo „obezwładniony”).
Alexis
1
@Alexis Test nie jest obezwładniony, IRL prawie nigdy nie oczekujemy, że wartość null będzie prawdziwa, raczej nie obchodzi nas, czy 99,999 percentyl różni się o 0,1 między i ., Więc ilekroć widzę od Test KS, wszystko, co myślę, to „to fałszywie ujemny wynik” i za każdym razem, gdy widzę , myślę „whoop-dee-zrób to, co możesz o tym powiedzieć ?”. Testy silnej hipotezy zerowej nie są przekonującym sposobem przedstawienia dowodów naukowych. F 2 p > 0,05 p < 0,05 F 1 = F 2F1F2p>0.05p<0.05F1=F2
AdamO
1
Dobrze. Zaniepokojenie budzą mnie różnice w testach hipotez. Ale czy twoja obawa o władzę wynika z prostego przekonania ontologicznego, że prawie na pewno ? czy jest coś bardziej matematycznego w asymptotykach czy coś jeszcze? F 2F1F2
Alexis
2
@Alexis nie, nie mam żadnych obaw związanych z matematyką testu. W rzeczywistości uważam, że jest dość elegancki, a wynik twierdzenia o granicy jest imponujący.
AdamO,
2
@Alexis powiem, w ustawieniach, gdzie jest to możliwe dla być dokładnie równa , test może być bardzo przydatna. Zgadzam się, że niewiele merytorycznych aplikacji naukowych pasuje do tego rachunku, ale w kontekście obliczeń statystycznych, w którym chcesz zweryfikować, że niektóre napisane przez ciebie oprogramowanie generuje pseudolosowe liczby ze znanej dystrybucji, jest to całkiem przydatne. Skutecznie kodyfikuje intuicję, jaką można uzyskać na podstawie wykresów prawdopodobieństwa. F 2F1F2
jcz
9

Mamy dwie niezależne, jednoczynnikowe próbki:

X1,X2,...,XNiidFY1,Y2,...,YMiidG,
gdzie i są funkcjami ciągłego rozkładu skumulowanego. Test Kołmogorowa-Smirnowa testuje Jeśli hipoteza zerowa jest prawdziwa, to i są próbkami z tego samego rozkładu. Aby i mogły być pobierane z różnych rozkładów, iGF
H0:F(x)=G(x)for all xRH1:F(x)G(x)for some xR.
{Xi}i=1N{Yj}j=1MXiYjFGróżnicować o dowolną kwotę co najmniej jedną wartość . Tak więc test KS szacuje i z empirycznymi CDF każdej próbki, dopracowując największą punktową różnicę między nimi i pytając, czy różnica ta jest „wystarczająco duża”, aby stwierdzić, że w pewnym .xFGF(x)G(x)xR

jcz
źródło
8

Intuicyjne podejście:

Test Kołmogorowa-Smirnowa zasadniczo opiera się na kolejności obserwacji według rozkładu. Logika jest taka, że ​​jeśli dwa leżące u podstaw rozkłady są takie same, to - w zależności od wielkości próbki - kolejność powinna być dość dobrze pomieszana między nimi.

Jeśli porządkowanie próbek jest „niezasadzone” w wystarczająco ekstremalny sposób (np. Wszystkie lub większość obserwacji w rozkładzie występuje przed obserwacjami w rozkładzie , co spowodowałoby, że statystyka byłaby znacznie większa), jest to traktowane jako dowód, że zero hipoteza, że ​​podstawowe rozkłady nie są identyczne.YX DXD

Jeśli te dwa przykładowe rozkłady są dobrze przetasowane, wówczas nie będzie miało możliwości, aby stać się bardzo duże, ponieważ uporządkowane wartości i będą miały tendencję do śledzenia razem, a ty nie będziesz miał wystarczających dowodów, aby odrzucić wartość zerową .DXY

Alexis
źródło