Motywacja do odległości Kołmogorowa między rozkładami

45

Istnieje wiele sposobów pomiaru, jak podobne są dwa rozkłady prawdopodobieństwa. Wśród metod, które są popularne (w różnych kręgach) są:

  1. odległość Kołmogorowa: sup odległość między funkcjami rozkładu;

  2. odległość Kantorowicza-Rubinsteina: maksymalna różnica między oczekiwaniami względem dwóch rozkładów funkcji ze stałą Lipschitza , która również okazuje się być odległością między funkcjami rozkładu;L 11L1

  3. odległość ograniczona-Lipschitza: podobnie jak odległość KR, ale funkcje muszą również mieć wartość absolutną co najwyżej .1

Mają różne zalety i wady. Jedynie zbieżność w znaczeniu 3. dokładnie odpowiada dokładnie zbieżności w dystrybucji; konwergencja w sensie 1. lub 2. jest ogólnie nieco silniejsza. (W szczególności, jeśli z prawdopodobieństwem , to zbiega się w rozkładzie , ale nie w odległości Kołmogorowa. Jeśli jednak rozkład granic jest ciągły, to ta patologia nie występuje. ) 1Xn0Xn=1n1Xn0

Z punktu widzenia elementarnej teorii prawdopodobieństwa lub miary 1. jest bardzo naturalne, ponieważ porównuje prawdopodobieństwo bycia w pewnym zbiorze. Z drugiej strony bardziej wyrafinowana perspektywa probabilistyczna skupia się bardziej na oczekiwaniach niż na prawdopodobieństwach. Również z punktu widzenia analizy funkcjonalnej odległości takie jak 2. lub 3. oparte na dualności z pewną przestrzenią funkcji są bardzo atrakcyjne, ponieważ istnieje duży zestaw narzędzi matematycznych do pracy z takimi rzeczami.

Jednak moje wrażenie (popraw mnie, jeśli się mylę!) Jest takie, że w statystykach odległość Kołmogorowa jest zwykle preferowanym sposobem pomiaru podobieństwa rozkładów. Mogę zgadnąć jeden powód: jeśli jeden z rozkładów jest dyskretny ze skończonym wsparciem - w szczególności, jeśli jest to rozkład niektórych rzeczywistych danych - to odległość Kołmogorowa do rozkładu modelu jest łatwa do obliczenia. (Odległość KR byłaby nieco trudniejsza do obliczenia, a odległość BL prawdopodobnie byłaby niemożliwa w praktyce.)

Moje pytanie (na koniec) brzmi: czy istnieją inne powody, praktyczne lub teoretyczne, aby faworyzować odległość Kołmogorowa (lub inną odległość) do celów statystycznych?

Mark Meckes
źródło
1
Podoba mi się pytanie, może być już większość możliwej odpowiedzi w pytaniu ... czy masz pojęcie o rodzaju odpowiedzi / rozwoju, który chcesz?
robin girard
1
Niezbyt konkretnie. Nie znam się na statystykach, a jednym z powodów, dla których pytam, jest ustalenie, jakich kryteriów użyliby statystycy do wyboru różnych wskaźników. Ponieważ opisałem już jedną ważną praktyczną zaletę 1 (można to obliczyć), szczególnie interesują mnie motywacje teoretyczne. Powiedzmy, czy informacje dostarczane przez szacunki odległości Kołmogorowa często mają bezpośrednie zastosowanie w aplikacjach?
Mark Meckes
Zapomniałem zakończyć mój poprzedni komentarz bardziej lub mniej oczywistym: a jeśli tak, to w jaki sposób?
Mark Meckes
Ponownie przeczytałem mój długi komentarz powyżej i zdałem sobie sprawę, że ostatnie pytanie, które zadałem, jest w równym stopniu praktyczne, co teoretyczne. W każdym razie jest to jeden z rodzajów problemów, o których chciałbym się dowiedzieć.
Mark Meckes,
Wiem, że nie chciałeś być wyczerpujący, ale możesz dodać statystyki kochania Andersona (patrz: en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Przypomniało mi to artykuł autorstwa Jagera i Wellnera (patrz projecteuclid.org/... ), który rozszerza / uogólnia statystyki kochania Andersona (i obejmuje w szczególności większą krytykę Tukeya) ...
Robin Girard

Odpowiedzi:

12

Znak,

głównym powodem, dla którego jestem świadomy użycia KS, jest to, że wynika on naturalnie z twierdzeń Glivenko-Cantelli w jednoczynnikowych procesach empirycznych. Jedyne, co poleciłbym, to AWvan der Vaart „Asymptotic Statistics”, rozdz. 19. Bardziej zaawansowaną monografią jest „Słaba konwergencja i procesy empiryczne” Wellnera i van der Vaarta.

Dodałbym dwie krótkie notatki:

  1. inną miarą odległości powszechnie stosowaną w rozkładach jednowymiarowych jest odległość Cramera-von Misesa, która jest odległością L ^ 2;
  2. w ogólnych przestrzeniach wektorowych stosowane są różne odległości; przestrzeń zainteresowań wielu artykułów jest polska. Bardzo dobrym wprowadzeniem jest „Konwergencja miar prawdopodobieństwa” Billingsleya.

Przepraszam, jeśli nie mogę być bardziej szczegółowy. Mam nadzieję, że to pomoże.

niezadowolony
źródło
2
Dwie szybkie notatki na twoich notatkach. 1. Odległość C-vM jest dokładnie kuzynem L ^ 2 odległości Kołmogorowa (L ^ nieskończoność) i (jednowymiarowa) odległości KR (L ^ 1), a zatem interpoluje między nimi. 2. Jedną z zalet, o których nie wspomniałem o odległościach KR i BL, jest to, że uogólniają się one bardziej naturalnie na przestrzenie o wyższych wymiarach.
Mark Meckes,
Jeśli chodzi o 1., to prawda. Odnośnie 2. Zasadniczo wszystkie powyższe odległości mogą zostać przeniesione do R ^ n, jednak nie znam popularnych testów nieparametrycznych opartych na dowolnej odległości. Ciekawe byłoby wiedzieć, czy są jakieś.
szczęśliwy
8

Kwestie obliczeniowe są najsilniejszym argumentem, jaki słyszałem w ten czy inny sposób. Największą zaletą odległości Kołmogorowa jest to, że bardzo łatwo jest ją obliczyć analitycznie dla niemal każdego CDF. Większość innych mierników odległości nie ma wyrażenia w formie zamkniętej, z wyjątkiem czasami Gaussa.

Odległość Kołmogorowa próbki ma również znany rozkład próbkowania, biorąc pod uwagę CDF (nie sądzę, że większość innych tak robi), co ostatecznie wiąże się z procesem Wienera. Jest to podstawa testu Kołmogorowa-Smirnoffa do porównania próbki z rozkładem lub dwoma próbkami.

Z uwagi na bardziej funkcjonalną analizę, sup norma jest dobra, ponieważ (jak wspominasz) zasadniczo definiuje jednolitą zbieżność. To pozostawia normalną zbieżność sugerującą zbieżność punktową, a więc jeśli jesteś sprytny w definiowaniu sekwencji funkcji, możesz pracować w RKHS i korzystać ze wszystkich fajnych narzędzi, które zapewnia.

Bogaty
źródło
8

Podsumowując , moja odpowiedź brzmi: jeśli masz wyraźne wyrażenie lub możesz dowiedzieć się, w jaki sposób mierzysz dystans (jakie „różnice” daje waga), możesz powiedzieć, dla czego jest lepszy. Innym uzupełniającym sposobem analizy i porównania takiego testu jest teoria minimaks.

Na koniec niektóre testy będą dobre dla niektórych alternatyw, a niektóre dla innych. Dla danego zestawu alternatyw można czasem pokazać, czy test ma optymalną właściwość w najgorszym przypadku: jest to teoria minimaks.


Trochę szczegółów

Stąd możesz powiedzieć o właściwościach dwóch różnych testów, odnosząc się do zestawu alternatyw, dla których są one minimax (jeśli taka alternatywa istnieje), tj. (Używając słowa Donoho i Jin), porównując ich „optymalny typ wykrywania” http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Pozwól mi przejść odległość według odległości:

  1. Odległość KS oblicza się, obliczając supremum różnicy między empirycznym cdf a cdf. Będąc suprematem, będzie bardzo wrażliwy na lokalne alternatywy (lokalna zmiana w cdf), ale nie na globalną (przynajmniej użycie odległości L2 między cdf byłoby mniej lokalne (czy otwieram otwarte drzwi?)). Najważniejsze jest jednak to, że używa cdf. Oznacza to asymetrię: przywiązujesz większą wagę do zmian w ogonie swojej dystrybucji.

  2. Metryka Wasserteina (co miałeś na myśli przez Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric jest wszechobecna i dlatego trudna do porównania.

    • W konkretnym przypadku W2 zastosowano go w http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 i jest związany z odległością L2 do odwrotności cdf. Rozumiem, że nadaje on jeszcze większy ciężar ogonom, ale myślę, że powinieneś przeczytać gazetę, aby dowiedzieć się więcej na ten temat.
    • W przypadku odległości L1 między funkcją gęstości będzie to w dużej mierze zależeć od tego, jak oszacujesz swoją funkcję wgniecenia na podstawie danych ... ale poza tym wydaje się, że jest to „zrównoważony test” nie przywiązujący wagi do ogonów.

Aby przypomnieć i rozszerzyć komentarz, który wypełniłem, odpowiedź:

Wiem, że nie chciałeś być wyczerpujący, ale możesz dodać statystyki kochania Andersona (patrz http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Przypomniało mi to artykuł autorstwa Jagera i Wellnera (patrz http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ), który rozszerza / uogólnia statystykę Andersona (i zawiera w szczególności wyższa krytyka Tukeya). Większa krytyka okazała się już minimax dla szerokiej gamy alternatyw, a Jager i Wellner robią to samo z ich przedłużeniem. Nie sądzę, że właściwość minimax została pokazana dla testu Kołmogorowa. W każdym razie zrozumienie, dla jakiego rodzaju alternatywy test jest minimax, pomaga dowiedzieć się, gdzie jest jego siła, dlatego powinieneś przeczytać powyższy artykuł.

Robin Girard
źródło
1
Tak, to, co nazwałem odległością Kantorovitcha-Rubinsteina, jest również nazywane odległością L ^ 1 Wasserstein lub W1. Ma też wiele innych nazw.
Mark Meckes,
3
Dla wyjaśnienia dla każdego, kto nie zna odległości Wassersteina, który to czyta i odpowiedzi Gappy'ego: odległość L ^ 2 Wasserstein (W2) nie jest taka sama jak odległość Cramera-von Misesa.
Mark Meckes
4

Myślę, że musisz wziąć pod uwagę zalety teoretyczne vs zastosowane różnych pojęć odległości. Matematycznie naturalne obiekty niekoniecznie przekładają się dobrze na zastosowanie. Kołmogorow-Smirnov jest najbardziej znanym z zastosowań i jest głęboko zakorzeniony w testach pod kątem dopasowania. Przypuszczam, że jednym z powodów jest to, że gdy podstawowa dystrybucja jest ciągła rozkład statystyki jest niezależny od . Innym jest to, że można go łatwo odwrócić, aby uzyskać przedziały ufności dla CDF.F.FF

Ale często jest używany w inny sposób, gdzie jest szacowane przez , a statystyka testu przyjmuje postać Chodzi o to, aby zobaczyć, jak dobrze pasuje do danych i postępować tak, jakby , nawet jeśli teoria asymptotyczna niekoniecznie ma zastosowanie.FF^

supx|Fn(x)F^(x)|.
F^F^=F
vqv
źródło
3

Nie mogę podać dodatkowych powodów, dla których warto zastosować test Kołmogorowa-Smirnowa. Ale mogę podać ważny powód, aby z niego nie korzystać. Nie pasuje dobrze do ogona dystrybucji. Pod tym względem najlepszym testem dopasowania dystrybucji jest Anderson-Darling. Jako drugi najlepszy wynik testu Chi Square jest całkiem dobry. Oba są pod tym względem uważane za znacznie lepsze od testu KS.

Sympa
źródło
2

Z punktu widzenia analizy funkcjonalnej i teorii miary odległości typu nie definiują mierzalnych zbiorów w przestrzeniach funkcji (nieskończone przestrzenie wymiarowe tracą policzalny dodatek w metrycznych osłonach kulkowych). To zdecydowanie dyskwalifikuje jakąkolwiek mierzalną interpretację odległości wyborów 2 i 3.Lp

Oczywiście Kołomogorow, będąc o wiele jaśniejszym niż ktokolwiek z nas, zwłaszcza ja, wysyłał posty, tego się spodziewał. Sprytne jest to, że chociaż odległość w teście KS jest odmiany , sama jednolita norma nie jest używana do definiowania mierzalnych zbiorów. Raczej zestawy są częścią stochastycznej filtracji różnic między rozkładami ocenianymi dla zaobserwowanych wartości; co jest równoważne problemowi z czasem zatrzymania.L0

Krótko mówiąc, preferowana jest jednolita normalna odległość wyboru 1, ponieważ sugerowany przez nią test jest równoważny problemowi z czasem zatrzymania, który sam daje prawdopodobieństwa obliczalne. Gdzie jako opcje 2 i 3 nie można zdefiniować mierzalnych podzbiorów funkcji.

Aaron Sheldon
źródło