Dlaczego Entropia jest zmaksymalizowana, gdy rozkład prawdopodobieństwa jest jednolity?

32

Wiem, że entropia jest miarą losowości procesu / zmiennej i można ją zdefiniować w następujący sposób. dla losowej zmiennej zestawie : - . W książce na temat Entropii i teorii informacji MacKaya podaje to oświadczenie w Ch2A H ( X ) = x iA - p ( x i ) log ( p ( x i ) )XZAH.(X)=xjaZA-p(xja)log(p(xja))

Entropia jest zmaksymalizowana, jeśli p jest jednorodne.

Intuicyjnie jestem w stanie to zrozumieć, tak jakby wszystkie punkty danych w zestawie były wybierane z jednakowym prawdopodobieństwem ( jest licznością zbioru ), wtedy losowość lub entropia wzrastają. Ale jeśli wiemy, że niektóre punkty w zestawie wystąpią z większym prawdopodobieństwem niż inne (powiedzmy w przypadku rozkładu normalnego, w którym maksymalne stężenie punktów danych znajduje się wokół średniej i wokół małego obszaru odchylenia standardowego, to losowość lub entropia powinna się zmniejszyć.1 / m m A AZA1/mmZAZA

Ale czy jest na to jakiś matematyczny dowód? Podobnie jak równanie dla , różnicuję je względem i ustawiam na 0 lub coś w tym rodzaju.p ( x )H.(X)p(x)

Na marginesie, czy istnieje jakieś powiązanie między entropią występującą w teorii informacji a obliczeniami entropii w chemii (termodynamika)?

użytkownik76170
źródło
2
Odpowiedź na to pytanie (przejściowo) znajduje się na stronie stats.stackexchange.com/a/49174/919 .
whuber
Mylę się z innym stwierdzeniem zawartym w książce Christopher Bishops, w którym stwierdza się, że „dla jednej zmiennej rzeczywistej rozkład maksymalizujący entropię to Gaussa”. Stwierdza także, że „rozkład wielowymiarowy z maksymalną entropią, dla danej kowariancji, jest gaussowski”. Jak ważne jest to oświadczenie? Czy entropia rozkładu równomiernego nie jest zawsze maksimum?
user76170,
6
Maksymalizacja jest zawsze wykonywana z zastrzeżeniem ograniczeń możliwego rozwiązania. Gdy istnieją ograniczenia, że ​​wszelkie prawdopodobieństwo musi zniknąć poza ustalonymi granicami, maksymalne rozwiązanie entropii jest jednolite. Gdy zamiast tego istnieją ograniczenia, że ​​oczekiwanie i wariancja muszą być równe predefiniowanym wartościom, rozwiązanie ME jest gaussowskie. Cytowane przez ciebie stwierdzenia musiały zostać wydane w określonych kontekstach, w których ograniczenia te zostały określone lub przynajmniej domyślnie zrozumiane.
whuber
2
Prawdopodobnie powinienem również wspomnieć, że słowo „entropia” oznacza coś innego w ustawieniu Gaussa niż w pierwotnym pytaniu tutaj, ponieważ wtedy dyskutujemy o entropii ciągłych rozkładów. Ta „entropia różnicowa” jest innym zwierzęciem niż entropia dyskretnych rozkładów. Główną różnicą jest to, że entropia różnicowa nie jest niezmienna przy zmianie zmiennych.
whuber
Co oznacza, że ​​maksymalizacja zawsze dotyczy ograniczeń? Co jeśli nie ma żadnych ograniczeń? Mam na myśli, czy nie może być takiego pytania? Który rozkład prawdopodobieństwa ma maksymalną entropię?
user76170,

Odpowiedzi:

25

Heurystycznie funkcja gęstości prawdopodobieństwa na z maksymalną entropią okazuje się być tą, która odpowiada najmniejszej wiedzy o , innymi słowy rozkład jednolity.{ x 1 , x 2 , . . , . x n }{x1,x2,..,.xn}{x1,x2),..,.xn}

Teraz, aby uzyskać bardziej formalny dowód, rozważ następujące kwestie:

Funkcja gęstości prawdopodobieństwa na jest zbiorem liczb rzeczywistych nieujemną p 1 , . . . , p n, które sumują się do 1. Entropia jest ciągłą funkcją -tuples , a te punkty leżą w zwartym podzbiorze , więc istnieje -pleple, gdzie entropia jest zmaksymalizowana. Chcemy pokazać, że dzieje się to w i nigdzie indziej.{x1,x2),..,.xn}p1,...,pn( s 1 , . . . , p n ) R n n ( 1 / n , . . . , 1 / n )n(p1,...,pn)Rnn(1/n,...,1/n)

Załóżmy, że nie są równe, powiedzmy . (Oczywiście ) Znajdziemy nową gęstość prawdopodobieństwa o wyższej entropii. Wynika z tego, że ponieważ entropia jest zmaksymalizowana przy pewnym -pleju, entropia jest wyjątkowo zmaksymalizowana przy -ple z dla wszystkich .p 1 < p 2 n 1 n n p i = 1 / n ipjotp1<p2)n1nnpja=1/nja

Od , dla małego pozytywnego mamy . Entropia minus entropia jest równa ε s +1 + ε < s 2 - ε { s +1 + ε , P 2 - ε , str 3 , . . . , P n } { P 1 , P 2 , str 3 , . . . , p n }p1<p2)εp1+ε<p2)-ε{p1+ε,p2)-ε,p3),...,pn}{p1,p2),p3),...,pn}

ε-p1log(1+ε

-p1log(p1+εp1)-εlog(p1+ε)-p2)log(p2)-εp2))+εlog(p2)-ε)
Aby ukończyć dowód, chcemy pokazać, że jest to pozytywne dla wystarczająco małego . Przepisz powyższe równanie jako ε
-p1log(1+εp1)-ε(logp1+log(1+εp1))-p2)log(1-εp2))+ε(logp2)+log(1-εp2)))

Przypominając, że dla małych , powyższe równanie to co jest dodatnie, gdy jest wystarczająco mały, ponieważ .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2))x

-ε-εlogp1+ε+εlogp2)+O(ε2))=εlog(p2)/p1)+O(ε2))
εp1<p2)

Mniej rygorystyczny dowód to:

Rozważ najpierw następujący lemat:

Niech i jest ciągłe funkcje gęstości prawdopodobieństwa na przedziale w rzeczywistych numerów, z i o . Mamy jeśli istnieją dwie całki. Ponadto istnieje równość wtedy i tylko wtedy, gdy dla wszystkich .q ( x ) I p 0 q > 0 I - I p log p d x - I p log q d x p ( x ) = q ( x ) xp(x)q(x)jap0q>0ja

-japlogprex-japlogqrex
p(x)=q(x)x

Teraz niech będzie dowolną funkcją gęstości prawdopodobieństwa na , przy . Niech dla wszystkich , który jest entropią . Dlatego nasza lemat mówi , z równością wtedy i tylko wtedy, gdy jest jednolite.{ x 1 , . . . , x n } p i = p ( x i ) q ip{x1,...,xn}pja=p(xja)i - n i = 1 p i log q i = n i = 1 p i log n = log n q h ( p ) h ( q )qja=1/nja

-ja=1npjalogqja=ja=1npjalogn=logn
qh(p)h(q)p

Ponadto wikipedia ma krótką dyskusję na ten temat: wiki

Mitchus
źródło
11
Podziwiam wysiłek przedstawienia podstawowego dowodu (bez rachunku). Rygorystyczna jednowierszowa demonstracja jest dostępna poprzez ważoną nierówność AM-GM , zauważając, że = przy równości trzymającej iff wszystkie są równe, QED. exp(H.)(1pja)pjapja1pja=n1/pja
whuber
Nie rozumiem, jak może być równy . lognlogn
user1603472,
4
@ user1603472 masz na myśli ? Jest tak, ponieważja=1npjalogn=lognja=1npjalogn=lognja=1npja=logn×1
HBeel 29.09.16
lognjap 1 , , p n1p1,,pn
To samo wyjaśnienie z bardziej szczegółowymi informacjami można znaleźć tutaj: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland
14

Entropia w fizyce i teorii informacji nie są ze sobą powiązane. Różnią się bardziej niż sugeruje nazwa, ale istnieje wyraźny związek między nimi. Metryka entropii ma na celu pomiar ilości informacji. Zobacz moją odpowiedź z wykresami tutaj, aby pokazać, jak entropia zmienia się z rozkładu równomiernego na rozkład garbowany.

Powodem maksymalizacji entropii dla jednolitego rozkładu jest to, że została tak zaprojektowana! Tak, konstruujemy miarę braku informacji, dlatego chcemy przypisać jej najwyższą wartość do najmniej informacyjnego rozkładu.

Przykład. Zapytałem cię „ Stary, gdzie jest mój samochód ?” Twoja odpowiedź brzmi: „jest gdzieś w USA między Oceanem Atlantyckim a Pacyfikiem”. To jest przykład jednolitego rozkładu. Mój samochód może być w dowolnym miejscu w USA. Nie otrzymałem wiele informacji z tej odpowiedzi.

Jeśli jednak powiesz mi: „Widziałem twój samochód godzinę temu na trasie 66 jadącej z Waszyngtonu” - to już nie jest jednolita dystrybucja. Samochód jest bardziej oddalony o 60 mil od DC niż gdziekolwiek w pobliżu Los Angeles. Jest tutaj wyraźnie więcej informacji.

Dlatego nasza miara musi mieć wysoką entropię dla pierwszej odpowiedzi i niższą dla drugiej. Mundur musi być jak najmniej informacyjny, to w zasadzie odpowiedź „nie mam pojęcia”.

Aksakal
źródło
7

fa(x)[za,b]y1,yn[za,b]nfa(y1+ynn)fa(y1)++fa(yn)

fa(x)=-xlog(x)yja=p(xja)p(xja)losol(n)ja=1n-p(xja)losol(p(xja))

Oktawian Ganea
źródło
1
Uważam, że dowód nierówności Jensena jest o wiele głębszym dowodem koncepcyjnym niż dowód AM-GM.
Casebash,
4

Na marginesie, czy istnieje jakieś powiązanie między entropią występującą w teorii informacji a obliczeniami entropii w chemii (termodynamika)?

Tak jest! Możesz zobaczyć prace Jaynesa i wielu innych obserwujących jego prace (na przykład tu i tutaj ).

Ale główną ideą jest to, że mechanika statystyczna (i inne dziedziny nauki również) mogą być postrzegane jako wniosek, jaki robimy na temat świata .

Jako dalsze czytanie polecam książkę Ariela Catichy na ten temat.

kaslusimoes
źródło
1

Intuicyjne wyjaśnienie:

Jeśli umieścimy większą masę prawdopodobieństwa w jednym zdarzeniu zmiennej losowej, będziemy musieli usunąć niektóre z innych zdarzeń. Ten będzie miał mniejszą zawartość informacyjną i większą wagę, a drugi więcej informacji i mniejszą wagę. Dlatego entropia będąca oczekiwaną treścią informacyjną spadnie, ponieważ wydarzenie o niższej zawartości informacyjnej będzie ważone bardziej.

Jako skrajny przypadek wyobraź sobie, że jedno zdarzenie uzyska prawdopodobieństwo prawie jednego, dlatego inne zdarzenia będą miały łączne prawdopodobieństwo prawie zerowe, a entropia będzie bardzo niska.

Roland
źródło
0

pja

pjaja=1,...,nq=1-ja=0n-1pja

H.=-ja=0n-1pjalogpja-(1-q)logqH.ln2)=-ja=0n-1pjalnpja-(1-q)lnq
H.pja=lnqpja=0
q=pjajap1=p2)=...=pn

Jan Fan
źródło
pja