Spróbuję to zrobić, choć jest to nieco powyżej mojej głowy, więc posyp odrobiną soli ...
Nie do końca się mylisz. Myślę, że tam, gdzie upada twój eksperyment myślowy, entropia różnicowa nie jest ograniczającym przypadkiem entropii. Zgaduję, że z tego powodu podobieństwa między nim a złożonością Kołmogorowa zostały utracone.
Powiedzmy, że mamy dyskretną zmienną losową . Możemy obliczyć jego entropię Shannona w następujący sposób, sumując wszystkie możliwe wartości ,
x i H ( X ) = - ∑ i P ( X = x i ) log ( P ( X = x i ) ) .Xxja
H.( X) = - ∑jaP.( X= xja) log( P( X= xja) ) .
Jak dotąd nudno. Powiedzmy teraz, że jest kwantową wersją ciągłej zmiennej losowej - powiedzmy, że mamy funkcję gęstości która generuje próbki z zestawu liczb rzeczywistych, i przekształcamy to w histogram. Będziemy mieli wystarczająco dokładny histogram, że funkcja gęstości jest zasadniczo liniowa. W takim przypadku będziemy mieli entropię coś takiego:
gdzie jest szerokością naszych przedziałów histogramu, a jest punktem środkowym każdego z nich. Mamy w tym logarytmie produkt - oddzielmy to i wykorzystajmy właściwość rozkładów prawdopodobieństwa sumujących do 1, aby przenieść go poza sumę, dając nam
p ( ) H ( X ) ≈ - ∑ i p ( X = x i ) δ x log ( p ( X = x i ) δ x ) , δ x x i H ( X ) ≈ - log ( δ x ) - ∑ i p ( X = x i ) δ xXp ( )
H.( X) ≈ - ∑jap ( X= xja) δx log( p(X= xja) δx ) ,
δxxjaH.( X) ≈ - log( δx ) - ∑jap ( X= xja) δx log( p(X= xja) ) .
Jeśli weźmiemy limit, pozwalając i przekształcając sumowanie w integrację, nasze przybliżenie staje się dokładne i otrzymujemy,
H ( X ) = - log ( d x ) - ∫ x p ( X = x ) log ( p ( X = x ) ) d x .δx → dx
H.( X) = - log( dx ) - ∫xp ( X= x ) log( p(X= x ) ) dx .
Termin po prawej stronie to entropia różnicowa. Ale spójrz na ten okropny termin. Musimy to zignorować, aby wszystkie nasze odpowiedzi nie były NaN. Obawiam się, że oznacza to, że entropia różnicowa nie jest ograniczającym przypadkiem entropii Shannona.log( dx )
Tracimy więc niektóre właściwości. Tak, przeskalowanie danych zmienia entropię różnicową - entropia różnicowa jest swego rodzaju miarą tego, jak „ściśle upakowany” jest plik pdf. Jeśli przeskalujesz to, to się zmieni. Inną zabawną właściwością jest to, że może być negatywna, w przeciwieństwie do entropii Shannona - spróbuj ustawić naprawdę bardzo małe i zobacz, co się stanie. Utrata związku ze złożonością Kołmogorowa, myślę, że to tylko kolejna ofiara.σ
Na szczęście nie jesteśmy całkowicie zagubieni. Rozbieżności między Kullbackiem a Leiblerem, a co za tym idzie wzajemne informacje, są dość dobrze zachowane, ponieważ wszystkie są anulowane. Na przykład możesz obliczyć
gdzie jest rozkładem odniesienia - powiedzmy, jednolity. Jest to zawsze dodatnie, a kiedy przeskalujesz zmienną , zmienia ona zarówno i , więc wyniki są znacznie mniej dotkliwe.δ
∫xp ( X= x ) log( p ( X= X )q( X= X )) dx
q( X)Xp ( X)q( X)