Masz pytania dotyczące dywergencji KL?

14

Porównuję dwie rozkłady z rozbieżnością KL, która zwraca mi niestandaryzowaną liczbę, która zgodnie z tym, co czytam o tej mierze, jest ilością informacji potrzebną do przekształcenia jednej hipotezy w drugą. Mam dwa pytania:

a) Czy istnieje sposób kwantyfikacji dywergencji KL, aby miał bardziej sensowną interpretację, np. wielkość efektu lub R ^ 2? Każda forma standaryzacji?

b) W R, używając KLdiv (pakiet flexmix), można ustawić wartość „esp” (standard esp = 1e-4), która ustawia wszystkie punkty mniejsze niż esp do pewnego standardu w celu zapewnienia stabilności liczbowej. Bawiłem się różnymi wartościami esp i dla mojego zestawu danych otrzymuję coraz większą dywergencję KL, im mniejszą liczbę wybieram. Co się dzieje? Spodziewałbym się, że im mniejszy esp, tym bardziej wiarygodne powinny być wyniki, ponieważ pozwalają one na włączenie większej liczby „rzeczywistych wartości” do statystyki. Nie? Muszę zmienić esp, ponieważ inaczej nie oblicza statystyki, ale po prostu pokazuje się jako NA w tabeli wyników ...

Ampleforth
źródło

Odpowiedzi:

10

Załóżmy, że podano n próbek IID wygenerowanych przez p lub q. Chcesz określić, która dystrybucja je wygenerowała. Przyjmij jako hipotezę zerową, że zostały one wygenerowane przez q. Niech wskaże prawdopodobieństwo błędu typu I, błędnie odrzucając hipotezę zerową, a b wskaże prawdopodobieństwo błędu typu II.

Zatem dla dużego n prawdopodobieństwo błędu typu I wynosi co najmniej

exp(nKL(p,q))

Innymi słowy, dla „optymalnej” procedury decyzyjnej prawdopodobieństwo typu I spada co najwyżej o współczynnik exp (KL (p, q)) z każdym punktem danych. Błąd typu II spada o współczynnik exp(KL(q,p)) co najwyżej .

Dla dowolnego n, a i b są powiązane w następujący sposób

blogb1a+(1b)log1banKL(p,q)

i

aloga1b+(1a)log1abnKL(q,p)

Jeśli wyrażymy powyższą granicę jako dolną granicę w kategoriach b i KL i zmniejszymy b do 0, wynik wydaje się zbliżać do granicy „exp (-n KL (q, p))” nawet dla małego n

Więcej informacji na stronie 10 tutaj oraz na stronach 74-77 „Teorii informacji i statystyki” Kullbacka (1978).

Na marginesie, ta interpretacja może być wykorzystana do zmotywowania metryki Informacji Fishera, ponieważ dla dowolnej pary rozkładów p, q w odległości k Fisher od siebie (mała k) potrzebujesz tej samej liczby obserwacji, aby je rozdzielić

Jarosław Bułatow
źródło
1
+1 Podoba mi się ta interpretacja! czy możesz wyjaśnić „p poniżej e”? dlaczego bierzesz małe e? mówisz „prawdopodobieństwo popełnienia przeciwnego błędu” to górna granica lub dokładne prawdopodobieństwo? Jeśli pamiętam, ten rodzaj podejścia jest spowodowany przez Chernoffa, czy masz referencje (uważam, że twoje pierwsze odniesienie nie wyjaśnia sprawy :))?
robin girard
1
Dlaczego biorę małe e ... hmm ... tak właśnie zrobił artykuł Balasubramaniana, ale teraz, wracając do Kullbacka, wydaje się, że jego granica jest związana z dowolnym e, a on także daje ograniczenie do skończonego n, pozwól mi zaktualizować odpowiedź
Yaroslav Bulatov,
ok, nie potrzebujemy małego e (teraz nazywanego b, błąd typu II), aby był mały, aby związać go, ale b = 0 to wartość, dla której związany jest uproszczony (exp (-n KL (p, q)) pasuje do bardziej skomplikowanej powyższej granicy. Co ciekawe, dolna granica dla podanego błędu typu I 0 Błąd typu II wynosi <1, zastanawiam się, czy rzeczywiście można osiągnąć poziom błędu <1 typu II
Jarosław Bułatow
1
W rzeczywistości znacznie łatwiejszym do zrozumienia odniesieniem jest „Elementy teorii informacji” Covera, strona 309, 12.8 „Lemma Steina”
Jarosław Bułatow
8

KL ma głębokie znaczenie, gdy wizualizujesz zestaw zębów jako kolektor w tensorze metrycznym Fishera, daje on odległość geodezyjną między dwoma „bliskimi” rozkładami. Formalnie:

ds2=2KL(p(x,θ),p(x,θ+dθ))

Poniższe wiersze mają wyjaśnić szczegółowo, co należy rozumieć przez te matematyczne formuły.

Definicja metryki Fishera.

Rozważ sparametryzowaną rodzinę rozkładów prawdopodobieństwa (daną przez gęstości w R n ), gdzie x jest zmienną losową, a theta jest parametrem w R p . Wszyscy możecie wiedzieć, że macierz informacji Fishera F = ( F i j ) jestD=(f(x,θ))RnxRpF=(fajajot)

fajajot=mi[re(logfa(x,θ))/reθjare(logfa(x,θ))/reθjot]

Z tą notacją jest kolektorem riemannowskim, a F ( θ )refa(θ) jest tensorem metrycznym Riemanniana. (Zainteresowanie tą metryką wyraża twierdzenie Cramera Rao o dolnej granicy)

Możesz powiedzieć ... OK abstrakcja matematyczna, ale gdzie jest KL?

To nie jest abstrakcja matematyczna, jeśli można naprawdę wyobrazić sobie sparametryzowaną gęstość jako krzywą (zamiast podzbioru przestrzeni o nieskończonym wymiarze), a F 11 jest połączony z krzywizną tej krzywej ... (patrz seminarium dokument Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p=1fa11

Geometryczna odpowiedź na część punktu a / w twoim pytaniu: kwadratowa odległość między dwoma (bliskimi) rozkładami p ( x , θ ) i p ( x , θ + d θ ) na kolektorze (pomyśl o odległości geodezyjnej na Ziemia dwóch bliskich punktów, jest związana z krzywizną ziemi) jest podana przez formę kwadratową:res2)p(x,θ)p(x,θ+reθ)

res2)=fajajotreθjareθjot

i wiadomo, że jest to podwójna dywergencja Kullbacka Leiblera:

res2)=2)K.L.(p(x,θ),p(x,θ+reθ))

Jeśli chcesz dowiedzieć się więcej na ten temat, proponuję przeczytać artykuł Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Myślę, że jest też książka Amari o geometria riemanniana w statystyce, ale nie pamiętam nazwy)

Robin Girard
źródło
Dodaj $ wokół swojego LaTeXa. Teraz powinno być wyrenderowane. Zobacz meta.math.stackexchange.com/questions/2/…
Rob Hyndman
1
Ponieważ nie jestem matematykiem ani statystykiem, chciałbym powtórzyć to, co mówiliście, aby upewnić się, że nie zrozumiałem źle. Mówisz więc, że przyjmowanie ds ^ 2 (dwukrotność KL) miałoby podobne znaczenie jak R ^ 2 (w modelu regresji) dla ogólnego rozkładu. I czy można to faktycznie wykorzystać do geometrycznej kwantyfikacji odległości? Czy ds ^ 2 ma nazwę, więc mogę więcej o tym przeczytać. Czy jest artykuł, który bezpośrednio opisuje tę metrykę oraz pokazuje zastosowania i przykłady?
Ampleforth,
Myślę, że daleko Ci do zrozumienia tego i nie jestem pewien, czy powinieneś teraz spróbować pójść dalej. Jeśli masz motywację, możesz przeczytać artykuł z Bradley Efron, o którym wspominałem, lub ten artykuł z Amari projecteuclid.org/… .
robin girard
1
Wydaje się, że jest to charakterystyka kierunkowej pochodnej KL, a nie samej KL, i nie wydaje się możliwe uzyskanie z niej dywergencji KL, ponieważ w przeciwieństwie do pochodnej, rozbieżność KL nie zależy od geometrii rozmaitości
Jarosław Bułatow
7

Rozbieżność KL (p, q) między rozkładami p (.) I q (.) Ma intuicyjną interpretację teorii informacji, która może okazać się przydatna.

Załóżmy, że obserwujemy dane x wygenerowane przez pewien rozkład prawdopodobieństwa p (.). Dolna granica średniej długości kodu w bitach wymagana do stwierdzenia danych generowanych przez p (.) Jest określona przez entropię p (.).

Ponieważ nie znamy p (.), Wybieramy inną dystrybucję, powiedzmy q (.), Aby zakodować (lub opisać, podać) dane. Średnia długość kodu danych generowanych przez p (.) I kodowanych za pomocą q (.) Będzie koniecznie dłuższa niż w przypadku zastosowania do kodowania rzeczywistego rozkładu p (.). Rozbieżność KL mówi nam o nieefektywności tego alternatywnego kodu. Innymi słowy, rozbieżność KL między p (.) A q (.) Jest średnią liczbą dodatkowych bitów wymaganych do kodowania danych generowanych przez p (.) Z wykorzystaniem rozkładu kodowania q (.). Rozbieżność KL jest nieujemna i równa zeru, jeżeli do zakodowania danych wykorzystywany jest faktyczny rozkład generowania danych.

emakaliczny
źródło
2

W części (b) pytania możesz mieć problem z gęstością jednej z dystrybucji w regionie, w którym nie ma drugiej.

re(P.Q)=pjalnpjaqja

Różni się to, jeśli istnieje ja gdzie pja>0 i qja=0. Numeryczny epsilon w implementacji R „ratuje” cię przed tym problemem; ale oznacza to, że wynikowa wartość zależy od tego parametru (technicznieqja=0 nie jest wymagane, tylko to qja jest mniejsza niż epsilon numeryczny).

Dave
źródło