Czytając o 2-próbnym teście KS, rozumiem dokładnie, co on robi, ale nie rozumiem, dlaczego to działa .
Innymi słowy, mogę wykonać wszystkie kroki, aby obliczyć funkcje rozkładu empirycznego, znaleźć maksymalną różnicę między nimi, aby znaleźć statystykę D, obliczyć wartości krytyczne, przekonwertować statystykę D na wartość p itp.
Ale nie mam pojęcia, dlaczego nic z tego nie mówi mi nic o dwóch dystrybucjach.
Ktoś równie łatwo mógł mi powiedzieć, że muszę przeskoczyć osła i policzyć, jak szybko ucieka, a jeśli prędkość jest mniejsza niż 2 km / h, to odrzucam hipotezę zerową. Jasne, że mogę zrobić to, co mi kazałeś, ale co to ma wspólnego z hipotezą zerową?
Dlaczego działa test 2-próbkowy KS? Co obliczenie maksymalnej różnicy między ECDF ma wspólnego z tym, jak różne są te dwa rozkłady?
Każda pomoc jest mile widziana. Nie jestem statystykiem, więc załóż, że jestem idiotą, jeśli to możliwe.
Odpowiedzi:
Zasadniczo test jest spójny jako bezpośredni wynik twierdzenia Glivenko Cantelli, jednego z najważniejszych wyników procesów empirycznych i być może statystyki.
GC mówi nam, że statystyka testu Kołmogorowa Smirnowa wynosi 0 jako pod hipotezą zerową. Może się to wydawać intuicyjne, dopóki nie poradzisz sobie z prawdziwą analizą i nie ograniczysz twierdzeń. Jest to objawienie, ponieważ proces ten można uznać za niezliczoną liczbę nieskończoną liczbę procesów losowych, więc prawa lub prawdopodobieństwo doprowadziłyby do przekonania, że zawsze istnieje jeden punkt, który mógłby przekroczyć dowolną granicę epsilon, ale nie, supremum zbiegnie się w długi bieg.n→∞
Jak długo? Mmyyeeaa nie wiem. Siła testu jest dość wątpliwa. Nigdy nie użyłbym tego w rzeczywistości.
http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf
źródło
Mamy dwie niezależne, jednoczynnikowe próbki:
źródło
Intuicyjne podejście:
Test Kołmogorowa-Smirnowa zasadniczo opiera się na kolejności obserwacji według rozkładu. Logika jest taka, że jeśli dwa leżące u podstaw rozkłady są takie same, to - w zależności od wielkości próbki - kolejność powinna być dość dobrze pomieszana między nimi.
Jeśli porządkowanie próbek jest „niezasadzone” w wystarczająco ekstremalny sposób (np. Wszystkie lub większość obserwacji w rozkładzie występuje przed obserwacjami w rozkładzie , co spowodowałoby, że statystyka byłaby znacznie większa), jest to traktowane jako dowód, że zero hipoteza, że podstawowe rozkłady nie są identyczne.Y X DX D
Jeśli te dwa przykładowe rozkłady są dobrze przetasowane, wówczas nie będzie miało możliwości, aby stać się bardzo duże, ponieważ uporządkowane wartości i będą miały tendencję do śledzenia razem, a ty nie będziesz miał wystarczających dowodów, aby odrzucić wartość zerową .D X Y
źródło