Entropia różnicowa

13

Entropia różniczkowa RV Gaussa to . Zależy to od , który jest odchyleniem standardowym.σlog2(σ2πe)σ

Jeśli znormalizujemy zmienną losową, aby miała wariancję jednostkową, jej entropia różnicowa spadnie. Dla mnie jest to sprzeczne z intuicją, ponieważ złożoność stałej normalizacyjnej Kołmogorowa powinna być bardzo mała w porównaniu ze zmniejszeniem entropii. Można po prostu opracować dekoder kodera, który dzieli / zwielokrotnia stałą normalizującą, aby odzyskać dowolny zestaw danych wygenerowany przez tę losową zmienną.

Prawdopodobnie nie rozumiem. Czy mógłbyś wskazać moją wadę?

Cagdas Ozgenc
źródło

Odpowiedzi:

17

Spróbuję to zrobić, choć jest to nieco powyżej mojej głowy, więc posyp odrobiną soli ...

Nie do końca się mylisz. Myślę, że tam, gdzie upada twój eksperyment myślowy, entropia różnicowa nie jest ograniczającym przypadkiem entropii. Zgaduję, że z tego powodu podobieństwa między nim a złożonością Kołmogorowa zostały utracone.

Powiedzmy, że mamy dyskretną zmienną losową . Możemy obliczyć jego entropię Shannona w następujący sposób, sumując wszystkie możliwe wartości , x i H ( X ) = - i P ( X = x i ) log ( P ( X = x i ) ) .Xxi

H(X)=iP(X=xi)log(P(X=xi)).

Jak dotąd nudno. Powiedzmy teraz, że jest kwantową wersją ciągłej zmiennej losowej - powiedzmy, że mamy funkcję gęstości która generuje próbki z zestawu liczb rzeczywistych, i przekształcamy to w histogram. Będziemy mieli wystarczająco dokładny histogram, że funkcja gęstości jest zasadniczo liniowa. W takim przypadku będziemy mieli entropię coś takiego: gdzie jest szerokością naszych przedziałów histogramu, a jest punktem środkowym każdego z nich. Mamy w tym logarytmie produkt - oddzielmy to i wykorzystajmy właściwość rozkładów prawdopodobieństwa sumujących do 1, aby przenieść go poza sumę, dając nam p ( ) H ( X ) - i p ( X = x i ) δ x log ( p ( X = x i ) δ x ) , δ x x i H ( X ) - log ( δ x ) - i p ( X = x i ) δ xXp()

H(X)ip(X=xi)δxlog(p(X=xi)δx),
δxxi
H(X)log(δx)ip(X=xi)δxlog(p(X=xi)).

Jeśli weźmiemy limit, pozwalając i przekształcając sumowanie w integrację, nasze przybliżenie staje się dokładne i otrzymujemy, H ( X ) = - log ( d x ) - x p ( X = x ) log ( p ( X = x ) ) d x .δxdx

H(X)=log(dx)xp(X=x)log(p(X=x))dx.

Termin po prawej stronie to entropia różnicowa. Ale spójrz na ten okropny termin. Musimy to zignorować, aby wszystkie nasze odpowiedzi nie były NaN. Obawiam się, że oznacza to, że entropia różnicowa nie jest ograniczającym przypadkiem entropii Shannona.log(dx)

Tracimy więc niektóre właściwości. Tak, przeskalowanie danych zmienia entropię różnicową - entropia różnicowa jest swego rodzaju miarą tego, jak „ściśle upakowany” jest plik pdf. Jeśli przeskalujesz to, to się zmieni. Inną zabawną właściwością jest to, że może być negatywna, w przeciwieństwie do entropii Shannona - spróbuj ustawić naprawdę bardzo małe i zobacz, co się stanie. Utrata związku ze złożonością Kołmogorowa, myślę, że to tylko kolejna ofiara.σ

Na szczęście nie jesteśmy całkowicie zagubieni. Rozbieżności między Kullbackiem a Leiblerem, a co za tym idzie wzajemne informacje, są dość dobrze zachowane, ponieważ wszystkie są anulowane. Na przykład możesz obliczyć gdzie jest rozkładem odniesienia - powiedzmy, jednolity. Jest to zawsze dodatnie, a kiedy przeskalujesz zmienną , zmienia ona zarówno i , więc wyniki są znacznie mniej dotkliwe.δ

xp(X=x)log(p(X=x)q(X=x))dx
q(X)Xp(X)q(X)
Poklepać
źródło
Dzięki. To bardzo interesujące. Nie wiedziałem, że w teorii jest taki chwyt.
Cagdas Ozgenc
1
Notacja nie jest tak naprawdę bardzo znacząca, ale możemy zamienić część twojej prezentacji w coś nieco bardziej precyzyjnego. Rzeczywiście, jeśli gęstość jest liczbą całkowitą Riemanna, to jako . Interpretacją tego, co często można zobaczyć, jest to, że bitowa kwantyzacja ciągłej zmiennej losowej ma entropię około . p ( x ) - i p ( x i ) δ x log p ( x i ) h ( X ) δ x 0 n h ( X ) + nlog(dx)p(x)ip(xi)δxlogp(xi)h(X)δx0nh(X)+n
kardynał
1
@Kardynał. Tak, wiedziałem, że było strasznie dziwną rzeczą, o której mówiłem, kiedy to pisałem. Jednak myślę, że takie postępowanie pomaga naprawdę doprowadzić do domu, dlaczego entropia różnicowa tak naprawdę nie jest entropią. log(dx)
Pat
@Cagdas - Nie wiem, czy nazwałbym to chwytem. Po prostu mierzy inną rzecz. I jak zauważa kardynał, ma pewne zastosowania. To, czy pęknie po zastosowaniu do rozkładu dwumianowego, zależy od tego, jak go zastosujesz :). Prawdopodobnie warto zacząć nowy temat, jeśli nie jesteś pewien.
Pat
Pomyślałem, że entropia różni się oczywiście od złożoności Kołmogorowa, gdy rozważa się generatory liczb pseudolosowych.
James Bowery