Wiem, że entropia jest miarą losowości procesu / zmiennej i można ją zdefiniować w następujący sposób. dla losowej zmiennej zestawie : - . W książce na temat Entropii i teorii informacji MacKaya podaje to oświadczenie w Ch2A H ( X ) = ∑ x i ∈ A - p ( x i ) log ( p ( x i ) )
Entropia jest zmaksymalizowana, jeśli p jest jednorodne.
Intuicyjnie jestem w stanie to zrozumieć, tak jakby wszystkie punkty danych w zestawie były wybierane z jednakowym prawdopodobieństwem ( jest licznością zbioru ), wtedy losowość lub entropia wzrastają. Ale jeśli wiemy, że niektóre punkty w zestawie wystąpią z większym prawdopodobieństwem niż inne (powiedzmy w przypadku rozkładu normalnego, w którym maksymalne stężenie punktów danych znajduje się wokół średniej i wokół małego obszaru odchylenia standardowego, to losowość lub entropia powinna się zmniejszyć.1 / m m A A
Ale czy jest na to jakiś matematyczny dowód? Podobnie jak równanie dla , różnicuję je względem i ustawiam na 0 lub coś w tym rodzaju.p ( x )
Na marginesie, czy istnieje jakieś powiązanie między entropią występującą w teorii informacji a obliczeniami entropii w chemii (termodynamika)?
źródło
Odpowiedzi:
Heurystycznie funkcja gęstości prawdopodobieństwa na z maksymalną entropią okazuje się być tą, która odpowiada najmniejszej wiedzy o , innymi słowy rozkład jednolity.{ x 1 , x 2 , . . , . x n }{ x1, x2), . . , . xn} { x1, x2), . . , . xn}
Teraz, aby uzyskać bardziej formalny dowód, rozważ następujące kwestie:
Funkcja gęstości prawdopodobieństwa na jest zbiorem liczb rzeczywistych nieujemną p 1 , . . . , p n, które sumują się do 1. Entropia jest ciągłą funkcją -tuples , a te punkty leżą w zwartym podzbiorze , więc istnieje -pleple, gdzie entropia jest zmaksymalizowana. Chcemy pokazać, że dzieje się to w i nigdzie indziej.{ x1, x2), . . , . xn} p1, . . . , pn ( s 1 , . . . , p n ) R n n ( 1 / n , . . . , 1 / n )n ( p1, . . . , pn) Rn n ( 1 / n , . . . , 1 / n )
Załóżmy, że nie są równe, powiedzmy . (Oczywiście ) Znajdziemy nową gęstość prawdopodobieństwa o wyższej entropii. Wynika z tego, że ponieważ entropia jest zmaksymalizowana przy pewnym -pleju, entropia jest wyjątkowo zmaksymalizowana przy -ple z dla wszystkich .p 1 < p 2 n ≠ 1 n n p i = 1 / n ipjot p1< p2) n ≠ 1 n n pja= 1 / n ja
Od , dla małego pozytywnego mamy . Entropia minus entropia jest równa ε s +1 + ε < s 2 - ε { s +1 + ε , P 2 - ε , str 3 , . . . , P n } { P 1 , P 2 , str 3 , . . . , p n }p1< p2) ε p1+ ε < p2)- ε { p1+ ε , p2)- ε , p3), . . . , pn} { p1, p2), p3), . . . , pn}
ε-p1log(1+ε
Przypominając, że dla małych , powyższe równanie to co jest dodatnie, gdy jest wystarczająco mały, ponieważ .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log( 1 + x ) = x + O ( x2)) x
Mniej rygorystyczny dowód to:
Rozważ najpierw następujący lemat:
Niech i jest ciągłe funkcje gęstości prawdopodobieństwa na przedziale w rzeczywistych numerów, z i o . Mamy jeśli istnieją dwie całki. Ponadto istnieje równość wtedy i tylko wtedy, gdy dla wszystkich .q ( x ) I p ≥ 0 q > 0 I - ∫ I p log p d x ≤ - ∫ I p log q d x p ( x ) = q ( x ) xp ( x ) q( x ) ja p ≥ 0 q> 0 ja
Teraz niech będzie dowolną funkcją gęstości prawdopodobieństwa na , przy . Niech dla wszystkich , który jest entropią . Dlatego nasza lemat mówi , z równością wtedy i tylko wtedy, gdy jest jednolite.{ x 1 , . . . , x n } p i = p ( x i ) q ip { x1, . . . , xn} pja= p ( xja) i - n ∑ i = 1 p i log q i = n ∑ i = 1 p i log n = log n q h ( p ) ≤ h ( q )qja= 1 / n ja
Ponadto wikipedia ma krótką dyskusję na ten temat: wiki
źródło
Entropia w fizyce i teorii informacji nie są ze sobą powiązane. Różnią się bardziej niż sugeruje nazwa, ale istnieje wyraźny związek między nimi. Metryka entropii ma na celu pomiar ilości informacji. Zobacz moją odpowiedź z wykresami tutaj, aby pokazać, jak entropia zmienia się z rozkładu równomiernego na rozkład garbowany.
Powodem maksymalizacji entropii dla jednolitego rozkładu jest to, że została tak zaprojektowana! Tak, konstruujemy miarę braku informacji, dlatego chcemy przypisać jej najwyższą wartość do najmniej informacyjnego rozkładu.
Przykład. Zapytałem cię „ Stary, gdzie jest mój samochód ?” Twoja odpowiedź brzmi: „jest gdzieś w USA między Oceanem Atlantyckim a Pacyfikiem”. To jest przykład jednolitego rozkładu. Mój samochód może być w dowolnym miejscu w USA. Nie otrzymałem wiele informacji z tej odpowiedzi.
Jeśli jednak powiesz mi: „Widziałem twój samochód godzinę temu na trasie 66 jadącej z Waszyngtonu” - to już nie jest jednolita dystrybucja. Samochód jest bardziej oddalony o 60 mil od DC niż gdziekolwiek w pobliżu Los Angeles. Jest tutaj wyraźnie więcej informacji.
Dlatego nasza miara musi mieć wysoką entropię dla pierwszej odpowiedzi i niższą dla drugiej. Mundur musi być jak najmniej informacyjny, to w zasadzie odpowiedź „nie mam pojęcia”.
źródło
źródło
Tak jest! Możesz zobaczyć prace Jaynesa i wielu innych obserwujących jego prace (na przykład tu i tutaj ).
Ale główną ideą jest to, że mechanika statystyczna (i inne dziedziny nauki również) mogą być postrzegane jako wniosek, jaki robimy na temat świata .
Jako dalsze czytanie polecam książkę Ariela Catichy na ten temat.
źródło
Intuicyjne wyjaśnienie:
Jeśli umieścimy większą masę prawdopodobieństwa w jednym zdarzeniu zmiennej losowej, będziemy musieli usunąć niektóre z innych zdarzeń. Ten będzie miał mniejszą zawartość informacyjną i większą wagę, a drugi więcej informacji i mniejszą wagę. Dlatego entropia będąca oczekiwaną treścią informacyjną spadnie, ponieważ wydarzenie o niższej zawartości informacyjnej będzie ważone bardziej.
Jako skrajny przypadek wyobraź sobie, że jedno zdarzenie uzyska prawdopodobieństwo prawie jednego, dlatego inne zdarzenia będą miały łączne prawdopodobieństwo prawie zerowe, a entropia będzie bardzo niska.
źródło
źródło