Istnieje wiele sposobów pomiaru, jak podobne są dwa rozkłady prawdopodobieństwa. Wśród metod, które są popularne (w różnych kręgach) są:
odległość Kołmogorowa: sup odległość między funkcjami rozkładu;
odległość Kantorowicza-Rubinsteina: maksymalna różnica między oczekiwaniami względem dwóch rozkładów funkcji ze stałą Lipschitza , która również okazuje się być odległością między funkcjami rozkładu;L 1
odległość ograniczona-Lipschitza: podobnie jak odległość KR, ale funkcje muszą również mieć wartość absolutną co najwyżej .
Mają różne zalety i wady. Jedynie zbieżność w znaczeniu 3. dokładnie odpowiada dokładnie zbieżności w dystrybucji; konwergencja w sensie 1. lub 2. jest ogólnie nieco silniejsza. (W szczególności, jeśli z prawdopodobieństwem , to zbiega się w rozkładzie , ale nie w odległości Kołmogorowa. Jeśli jednak rozkład granic jest ciągły, to ta patologia nie występuje. ) 1Xn0
Z punktu widzenia elementarnej teorii prawdopodobieństwa lub miary 1. jest bardzo naturalne, ponieważ porównuje prawdopodobieństwo bycia w pewnym zbiorze. Z drugiej strony bardziej wyrafinowana perspektywa probabilistyczna skupia się bardziej na oczekiwaniach niż na prawdopodobieństwach. Również z punktu widzenia analizy funkcjonalnej odległości takie jak 2. lub 3. oparte na dualności z pewną przestrzenią funkcji są bardzo atrakcyjne, ponieważ istnieje duży zestaw narzędzi matematycznych do pracy z takimi rzeczami.
Jednak moje wrażenie (popraw mnie, jeśli się mylę!) Jest takie, że w statystykach odległość Kołmogorowa jest zwykle preferowanym sposobem pomiaru podobieństwa rozkładów. Mogę zgadnąć jeden powód: jeśli jeden z rozkładów jest dyskretny ze skończonym wsparciem - w szczególności, jeśli jest to rozkład niektórych rzeczywistych danych - to odległość Kołmogorowa do rozkładu modelu jest łatwa do obliczenia. (Odległość KR byłaby nieco trudniejsza do obliczenia, a odległość BL prawdopodobnie byłaby niemożliwa w praktyce.)
Moje pytanie (na koniec) brzmi: czy istnieją inne powody, praktyczne lub teoretyczne, aby faworyzować odległość Kołmogorowa (lub inną odległość) do celów statystycznych?
Odpowiedzi:
Znak,
głównym powodem, dla którego jestem świadomy użycia KS, jest to, że wynika on naturalnie z twierdzeń Glivenko-Cantelli w jednoczynnikowych procesach empirycznych. Jedyne, co poleciłbym, to AWvan der Vaart „Asymptotic Statistics”, rozdz. 19. Bardziej zaawansowaną monografią jest „Słaba konwergencja i procesy empiryczne” Wellnera i van der Vaarta.
Dodałbym dwie krótkie notatki:
Przepraszam, jeśli nie mogę być bardziej szczegółowy. Mam nadzieję, że to pomoże.
źródło
Kwestie obliczeniowe są najsilniejszym argumentem, jaki słyszałem w ten czy inny sposób. Największą zaletą odległości Kołmogorowa jest to, że bardzo łatwo jest ją obliczyć analitycznie dla niemal każdego CDF. Większość innych mierników odległości nie ma wyrażenia w formie zamkniętej, z wyjątkiem czasami Gaussa.
Odległość Kołmogorowa próbki ma również znany rozkład próbkowania, biorąc pod uwagę CDF (nie sądzę, że większość innych tak robi), co ostatecznie wiąże się z procesem Wienera. Jest to podstawa testu Kołmogorowa-Smirnoffa do porównania próbki z rozkładem lub dwoma próbkami.
Z uwagi na bardziej funkcjonalną analizę, sup norma jest dobra, ponieważ (jak wspominasz) zasadniczo definiuje jednolitą zbieżność. To pozostawia normalną zbieżność sugerującą zbieżność punktową, a więc jeśli jesteś sprytny w definiowaniu sekwencji funkcji, możesz pracować w RKHS i korzystać ze wszystkich fajnych narzędzi, które zapewnia.
źródło
Podsumowując , moja odpowiedź brzmi: jeśli masz wyraźne wyrażenie lub możesz dowiedzieć się, w jaki sposób mierzysz dystans (jakie „różnice” daje waga), możesz powiedzieć, dla czego jest lepszy. Innym uzupełniającym sposobem analizy i porównania takiego testu jest teoria minimaks.
Na koniec niektóre testy będą dobre dla niektórych alternatyw, a niektóre dla innych. Dla danego zestawu alternatyw można czasem pokazać, czy test ma optymalną właściwość w najgorszym przypadku: jest to teoria minimaks.
Trochę szczegółów
Stąd możesz powiedzieć o właściwościach dwóch różnych testów, odnosząc się do zestawu alternatyw, dla których są one minimax (jeśli taka alternatywa istnieje), tj. (Używając słowa Donoho i Jin), porównując ich „optymalny typ wykrywania” http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .
Pozwól mi przejść odległość według odległości:
Odległość KS oblicza się, obliczając supremum różnicy między empirycznym cdf a cdf. Będąc suprematem, będzie bardzo wrażliwy na lokalne alternatywy (lokalna zmiana w cdf), ale nie na globalną (przynajmniej użycie odległości L2 między cdf byłoby mniej lokalne (czy otwieram otwarte drzwi?)). Najważniejsze jest jednak to, że używa cdf. Oznacza to asymetrię: przywiązujesz większą wagę do zmian w ogonie swojej dystrybucji.
Metryka Wasserteina (co miałeś na myśli przez Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric jest wszechobecna i dlatego trudna do porównania.
Aby przypomnieć i rozszerzyć komentarz, który wypełniłem, odpowiedź:
Wiem, że nie chciałeś być wyczerpujący, ale możesz dodać statystyki kochania Andersona (patrz http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Przypomniało mi to artykuł autorstwa Jagera i Wellnera (patrz http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ), który rozszerza / uogólnia statystykę Andersona (i zawiera w szczególności wyższa krytyka Tukeya). Większa krytyka okazała się już minimax dla szerokiej gamy alternatyw, a Jager i Wellner robią to samo z ich przedłużeniem. Nie sądzę, że właściwość minimax została pokazana dla testu Kołmogorowa. W każdym razie zrozumienie, dla jakiego rodzaju alternatywy test jest minimax, pomaga dowiedzieć się, gdzie jest jego siła, dlatego powinieneś przeczytać powyższy artykuł.
źródło
Myślę, że musisz wziąć pod uwagę zalety teoretyczne vs zastosowane różnych pojęć odległości. Matematycznie naturalne obiekty niekoniecznie przekładają się dobrze na zastosowanie. Kołmogorow-Smirnov jest najbardziej znanym z zastosowań i jest głęboko zakorzeniony w testach pod kątem dopasowania. Przypuszczam, że jednym z powodów jest to, że gdy podstawowa dystrybucja jest ciągła rozkład statystyki jest niezależny od . Innym jest to, że można go łatwo odwrócić, aby uzyskać przedziały ufności dla CDF.F.F F
Ale często jest używany w inny sposób, gdzie jest szacowane przez , a statystyka testu przyjmuje postać Chodzi o to, aby zobaczyć, jak dobrze pasuje do danych i postępować tak, jakby , nawet jeśli teoria asymptotyczna niekoniecznie ma zastosowanie.F F^
źródło
Nie mogę podać dodatkowych powodów, dla których warto zastosować test Kołmogorowa-Smirnowa. Ale mogę podać ważny powód, aby z niego nie korzystać. Nie pasuje dobrze do ogona dystrybucji. Pod tym względem najlepszym testem dopasowania dystrybucji jest Anderson-Darling. Jako drugi najlepszy wynik testu Chi Square jest całkiem dobry. Oba są pod tym względem uważane za znacznie lepsze od testu KS.
źródło
Z punktu widzenia analizy funkcjonalnej i teorii miary odległości typu nie definiują mierzalnych zbiorów w przestrzeniach funkcji (nieskończone przestrzenie wymiarowe tracą policzalny dodatek w metrycznych osłonach kulkowych). To zdecydowanie dyskwalifikuje jakąkolwiek mierzalną interpretację odległości wyborów 2 i 3.Lp
Oczywiście Kołomogorow, będąc o wiele jaśniejszym niż ktokolwiek z nas, zwłaszcza ja, wysyłał posty, tego się spodziewał. Sprytne jest to, że chociaż odległość w teście KS jest odmiany , sama jednolita norma nie jest używana do definiowania mierzalnych zbiorów. Raczej zestawy są częścią stochastycznej filtracji różnic między rozkładami ocenianymi dla zaobserwowanych wartości; co jest równoważne problemowi z czasem zatrzymania.L0
Krótko mówiąc, preferowana jest jednolita normalna odległość wyboru 1, ponieważ sugerowany przez nią test jest równoważny problemowi z czasem zatrzymania, który sam daje prawdopodobieństwa obliczalne. Gdzie jako opcje 2 i 3 nie można zdefiniować mierzalnych podzbiorów funkcji.
źródło