Porównuję dwie rozkłady z rozbieżnością KL, która zwraca mi niestandaryzowaną liczbę, która zgodnie z tym, co czytam o tej mierze, jest ilością informacji potrzebną do przekształcenia jednej hipotezy w drugą. Mam dwa pytania:
a) Czy istnieje sposób kwantyfikacji dywergencji KL, aby miał bardziej sensowną interpretację, np. wielkość efektu lub R ^ 2? Każda forma standaryzacji?
b) W R, używając KLdiv (pakiet flexmix), można ustawić wartość „esp” (standard esp = 1e-4), która ustawia wszystkie punkty mniejsze niż esp do pewnego standardu w celu zapewnienia stabilności liczbowej. Bawiłem się różnymi wartościami esp i dla mojego zestawu danych otrzymuję coraz większą dywergencję KL, im mniejszą liczbę wybieram. Co się dzieje? Spodziewałbym się, że im mniejszy esp, tym bardziej wiarygodne powinny być wyniki, ponieważ pozwalają one na włączenie większej liczby „rzeczywistych wartości” do statystyki. Nie? Muszę zmienić esp, ponieważ inaczej nie oblicza statystyki, ale po prostu pokazuje się jako NA w tabeli wyników ...
źródło
KL ma głębokie znaczenie, gdy wizualizujesz zestaw zębów jako kolektor w tensorze metrycznym Fishera, daje on odległość geodezyjną między dwoma „bliskimi” rozkładami. Formalnie:
Poniższe wiersze mają wyjaśnić szczegółowo, co należy rozumieć przez te matematyczne formuły.
Definicja metryki Fishera.
Rozważ sparametryzowaną rodzinę rozkładów prawdopodobieństwa (daną przez gęstości w R n ), gdzie x jest zmienną losową, a theta jest parametrem w R p . Wszyscy możecie wiedzieć, że macierz informacji Fishera F = ( F i j ) jestD=(f(x,θ)) Rn x Rp F= ( F.I j)
Z tą notacją jest kolektorem riemannowskim, a F ( θ )re fa( θ ) jest tensorem metrycznym Riemanniana. (Zainteresowanie tą metryką wyraża twierdzenie Cramera Rao o dolnej granicy)
Możesz powiedzieć ... OK abstrakcja matematyczna, ale gdzie jest KL?
To nie jest abstrakcja matematyczna, jeśli można naprawdę wyobrazić sobie sparametryzowaną gęstość jako krzywą (zamiast podzbioru przestrzeni o nieskończonym wymiarze), a F 11 jest połączony z krzywizną tej krzywej ... (patrz seminarium dokument Bradley Efron http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176343282 )p = 1 fa11
Geometryczna odpowiedź na część punktu a / w twoim pytaniu: kwadratowa odległość między dwoma (bliskimi) rozkładami p ( x , θ ) i p ( x , θ + d θ ) na kolektorze (pomyśl o odległości geodezyjnej na Ziemia dwóch bliskich punktów, jest związana z krzywizną ziemi) jest podana przez formę kwadratową:res2) p ( x , θ ) p ( x , θ + dθ )
i wiadomo, że jest to podwójna dywergencja Kullbacka Leiblera:
Jeśli chcesz dowiedzieć się więcej na ten temat, proponuję przeczytać artykuł Amari http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176345779 (Myślę, że jest też książka Amari o geometria riemanniana w statystyce, ale nie pamiętam nazwy)
źródło
Rozbieżność KL (p, q) między rozkładami p (.) I q (.) Ma intuicyjną interpretację teorii informacji, która może okazać się przydatna.
Załóżmy, że obserwujemy dane x wygenerowane przez pewien rozkład prawdopodobieństwa p (.). Dolna granica średniej długości kodu w bitach wymagana do stwierdzenia danych generowanych przez p (.) Jest określona przez entropię p (.).
Ponieważ nie znamy p (.), Wybieramy inną dystrybucję, powiedzmy q (.), Aby zakodować (lub opisać, podać) dane. Średnia długość kodu danych generowanych przez p (.) I kodowanych za pomocą q (.) Będzie koniecznie dłuższa niż w przypadku zastosowania do kodowania rzeczywistego rozkładu p (.). Rozbieżność KL mówi nam o nieefektywności tego alternatywnego kodu. Innymi słowy, rozbieżność KL między p (.) A q (.) Jest średnią liczbą dodatkowych bitów wymaganych do kodowania danych generowanych przez p (.) Z wykorzystaniem rozkładu kodowania q (.). Rozbieżność KL jest nieujemna i równa zeru, jeżeli do zakodowania danych wykorzystywany jest faktyczny rozkład generowania danych.
źródło
W części (b) pytania możesz mieć problem z gęstością jednej z dystrybucji w regionie, w którym nie ma drugiej.
Różni się to, jeśli istniejeja gdzie pja> 0 i qja= 0 . Numeryczny epsilon w implementacji R „ratuje” cię przed tym problemem; ale oznacza to, że wynikowa wartość zależy od tego parametru (technicznieqja= 0 nie jest wymagane, tylko to qja jest mniejsza niż epsilon numeryczny).
źródło