Entropia Shannona jest ujemną z sumy prawdopodobieństw każdego wyniku pomnożonej przez logarytm prawdopodobieństwa każdego wyniku. Jaki cel służy logarytmowi w tym równaniu?
Intuicyjna lub wizualna odpowiedź (w przeciwieństwie do głęboko matematycznej odpowiedzi) otrzyma dodatkowe punkty!
entropy
intuition
sequence-analysis
histelheim
źródło
źródło
Odpowiedzi:
Entropia Shannona to ilość spełniająca zbiór relacji.
Krótko mówiąc, logarytm ma sprawić, że będzie rosnąć liniowo wraz z rozmiarem systemu i „zachowywać się jak informacja”.
Pierwszy oznacza, że entropia rzutu monetą razy to razy entropia rzutu monetą:n n
Lub po prostu zobacz, jak to działa, gdy rzucasz dwiema różnymi monetami (być może niesprawiedliwe - z główkami z prawdopodobieństwem i ogonami dla pierwszej monety, a i dla drugiej) więc właściwości logarytmu (logarytm produktu jest sumą logarytmów) są kluczowe.p1 p2 q1 q2 −∑i=12∑j=12piqjlog(piqj)=−∑i=12∑j=12piqj(log(pi)+log(qj))
=−∑i=12∑j=12piqjlog(pi)−∑i=12∑j=12piqjlog(qj)=−∑i=12pilog(pi)−∑j=12qjlog(qj)
Ale również entropia Rényi ma tę właściwość (jest to entropia parametryzowana przez liczbę rzeczywistą , która staje się entropią Shannona dla ).α α→1
Nadchodzi jednak druga właściwość - entropia Shannona jest wyjątkowa, ponieważ dotyczy informacji. Aby uzyskać intuicyjne odczucie, możesz spojrzeć na jako średnią z .H=∑ipilog(1pi) log(1/p)
Możemy wywołać informacje. Dlaczego? Ponieważ jeśli wszystkie zdarzenia wystąpią z prawdopodobieństwem , oznacza to, że istnieją zdarzenia . Aby stwierdzić, które zdarzenie się wydarzyło, musimy użyć bitów (każdy bit podwaja liczbę zdarzeń, które możemy odróżnić).log(1/p) p 1/p log(1/p)
Możesz odczuwać zaniepokojenie „OK, jeśli wszystkie zdarzenia mają takie samo prawdopodobieństwo, sensowne jest użycie jako miary informacji. Ale jeśli nie, to dlaczego uśrednianie informacji ma jakiś sens?” - i jest to naturalny problem.log(1/p)
Okazuje się jednak, że ma to sens - twierdzenie Shannona o kodzie źródłowym mówi, że ciąg z nieskorelowanymi literami z prawdopodobieństwami o długości nie może być skompresowany (średnio) do ciągu binarnego krótszego niż . I faktycznie, możemy użyć kodowania Huffmana do skompresowania łańcucha i zbliżenia się do .{pi}i n nH n HnH
Zobacz też:
źródło
Jest to to samo co inne odpowiedzi, ale myślę, że najlepszym sposobem na wyjaśnienie tego jest sprawdzenie, co mówi Shannon w swoim oryginalnym artykule.
Źródło: Shannon, A Mathematical Theory of Communication (1948) [ pdf ].
Zauważ, że entropia Shannona pokrywa się z entropią mechaniki statystycznej Gibbsa, a także wyjaśnienie, dlaczego log występuje w entropii Gibbsa. W mechanice statystycznej entropia ma być miarą liczby możliwych stanów w których można znaleźć układ. Powodem, dla którego jest lepszy niż jest to, że jest zwykle bardzo szybko rosnącą funkcją swoich argumentów, a więc nie może być użytecznie przybliżona przez rozwinięcie Taylora, podczas gdy może być. (Nie wiem, czy to była pierwotna motywacja do podjęcia dziennika, ale wyjaśniono to w wielu wstępnych książkach z fizyki).log Ω Ω Ω log ΩΩ logΩ Ω Ω logΩ
źródło
inny sposób patrzenia na to jest z algorytmicznego punktu widzenia. Wyobraź sobie, że idziesz do odgadnięcia numer , że jedyną informacją jest to, że masz ten numer jest w przedziale . W tej sytuacji optymalnym algorytmem do zgadywania liczby jest prosty algorytm wyszukiwania binarnego , który znajduje w kolejności . Ta formuła intuicyjnie określa, ile pytań musisz zadać, aby dowiedzieć się, co to jest . Na przykład, jeśli , musisz zadać maksymalnie 3 pytania, aby znaleźć nieznane .1 ≤ x ≤ N x O ( log 2 N ) x N = 8 xx 1≤x≤N x O(log2N) x N=8 x
Z punktu widzenia prawdopodobieństwa, kiedy deklarowania jako równie mogą być dowolne wartości w zakresie , to znaczy o . Claude Shannon ładnie pokazał, że zawartość informacyjna wyniku jest zdefiniowana jako:1 ≤ x ≤ N p ( x ) = 1 / N 1 ≤ x ≤ N xx 1≤x≤N p(x)=1/N 1≤x≤N x
Powodem dla podstawy 2 w logarytmie jest to, że tutaj mierzymy informacje w bitach . Możesz także założyć logarytm naturalny, który sprawia, że informacje są mierzone w nats . Na przykład zawartość informacyjna outcom wynosi . Ta wartość jest dokładnie równa liczbie kroków w algorytmie wyszukiwania binarnego (lub liczbie instrukcji IF w algorytmie). Dlatego liczba pytań, które musisz znaleźć jest równa , jest dokładnie informacyjną zawartością wyniku .x=4 h(4)=3 x 4 x=4
Możemy również przeanalizować wydajność algorytmu wyszukiwania binarnego dla każdego możliwego wyniku. Jednym ze sposobów jest sprawdzenie, jaka jest oczekiwana liczba pytań, które należy zadać dla dowolnej wartości . Zauważ, że liczba wymaganych pytań do odgadnięcia wartości , jak omówiłem powyżej, to . Dlatego oczekiwana liczba pytań dla dowolnego jest z definicji równa:x x h(x) x
Oczekiwana liczba pytań jest dokładnie taka sama jak entropia zbioru , lub w skrócie entropia. Dlatego można stwierdzić, że entropii ilościowo oczekiwano (lub średnia) liczbę pytań jedno trzeba prosić, aby odgadnąć wynik, który jest złożoność obliczeniowa wyszukiwanie binarne.⟨h(x)⟩ H(X) H(X)
źródło
Oto proste wyjaśnienie. Można powiedzieć, że 2 książki tego samego rozmiaru zawierają dwa razy więcej informacji niż 1 książka, prawda? (Uważając książkę za ciąg bitów.) Cóż, jeśli pewien wynik ma prawdopodobieństwo P, to można powiedzieć, że jego zawartość informacyjna dotyczy liczby bitów, które należy zapisać 1 / P. (np. jeśli P = 1/256, to 8 bitów.) Entropia jest tylko średnią długości tej bitu informacji, dla wszystkich wyników.
źródło
Celem pojawiającego się w Entropii Shannona jest to, że jest jedyną funkcją spełniającą podstawowy zestaw właściwości, które jest w stanie ująć funkcja entropii, .log ( p i ) H ( p 1 , … , p N )log(pi) log(pi) H(p1,…,pN)
Shannon przedstawił matematyczny dowód tego wyniku, który został gruntownie wybrany i powszechnie przyjęty. Cel i znaczenie logarytmu w równaniu entropijnym jest zatem samowystarczalne w ramach założeń i dowodu.
Nie ułatwia to zrozumienia, ale ostatecznie jest powodem, dla którego pojawia się logarytm.
Znalazłem następujące odniesienia przydatne oprócz tych wymienionych gdzie indziej:
źródło
Podsumowanie:
Przykład:
Zróbmy to:
Symulacja:
Wyniki:
Co jest nie tak? Jest prawie blisko, ale nie bardzo blisko, jak się spodziewałem. Czy to PRNG Pythona próbuje powiedzieć wolny żart? A może Shannon się myli? A może to - Boże, zabrania - moje rozumienie jest błędne? Tak czy inaczej POMOC. SOS już stary.
źródło
źródło
To pytanie powstało dwa lata temu i było już wiele niesamowitych odpowiedzi, ale chciałbym dodać moje, które bardzo mi pomogło.
Pytanie brzmi
Logarytm (zwykle oparty na 2) wynika z nierówności Krafta .
Intuicyjny ilustracji i wizualny odpowiedź (jak jest to wymagane, ale specjalnie dla Krafta nierówności) jest wyrażona w tym artykule kod drzewa i Nierówność Krafta .
źródło
W oparciu o twoją nieakceptację jakichkolwiek odpowiedzi, myślę, że to, czego szukasz, jest powodem, dla którego Shannon w pierwszej kolejności zastosował logarytm w swojej formule. Innymi słowy, jego filozofia.
Oświadczenie : Jestem na tym polu tylko przez tydzień, przychodzę tutaj z powodu pytania takiego jak ty . Jeśli masz więcej wiedzy na ten temat, daj mi znać.
Mam to pytanie po przeczytaniu jednego z najważniejszych artykułów Ulanowicza, Rosnąca Entropia: śmierć z powodu upałów czy wieczne harmonie? . W tym akapicie wyjaśniono, dlaczego formuła ma -log (p) zamiast (1-p):
Wygląda na to, że Shannon wybrał logarytm bez powodu. Po prostu „pachniał”, że powinien używać logarytmu. Dlaczego Newton wybrał operację zwielokrotnienia w swojej formule F = m * a?
Zauważ, że w tym czasie nie miał pojęcia o entropii :
Moja odpowiedź brzmi: nie ma tego powodu. Wybrał to, ponieważ po prostu magicznie działało.
źródło
Entropia jest zdefiniowana jako logarytm średniej geometrycznej współczynnika wielomianowego, który wyraża liczbę stanów, w których może znajdować się system:
Logarytmy pojawiają się we wzorze po zastosowaniu aproksymacji silniowej Stirlinga (patrz to objaśnienie )
źródło
Dziennik pochodzi z wyprowadzenia funkcji H spełniającej określone wymagania naturalne. Patrz str. 3 sek. 2 tego źródła:
http://www.lptl.jussieu.fr/user/lesne/MSCS-entropy.pdf
Biorąc pod uwagę aksjomaty, jeśli przeprowadzisz optymalizację, otrzymasz unikalną (upto stałą) funkcję z logiem.
Wszystkie powyższe odpowiedzi są poprawne, z wyjątkiem tego, że interpretują dziennik, ale nie wyjaśniają jego źródła.
źródło
Wydaje mi się, że twoje pytanie dotyczy bardziej „znaczenia” tego logarytmu i dlaczego każdy element przyczynia się do ogólnego znaczenia formuły, a nie zwykłego formalizmu pokazującego spójność definicji z pewnymi wymaganiami.
Odtąd będę omawiać, w jaki sposób OGÓLNOŚĆ wpływa na ostateczną formułę entropii.
Teraz usiądź, zrelaksuj się i popatrz, jak pięknie Entropy Shannona robi tę sztuczkę: opiera się na (rozsądnym) założeniu, że wiadomości, które są bardziej OGÓLNE, są w związku z tym częstsze.
Na przykład powiem, że pada deszcz, jeśli jest to średni, obfity lub bardzo ciężki deszcz. Dlatego zaproponował zakodowanie OGÓLNEJ wiadomości w oparciu o ich CZĘSTOTLIWOŚĆ ... i proszę bardzo:
Równanie można interpretować jako: rzadkie wiadomości będą miały dłuższe kodowanie, ponieważ są mniej ogólne, więc potrzebują więcej bitów do zakodowania i są mniej pouczające. Dlatego posiadanie bardziej szczegółowych i rzadkich wiadomości przyczyni się bardziej do entropii niż posiadanie wielu wiadomości ogólnych i częstych.
Najwyższą entropią jest sytuacja, gdy mamy system z wieloma rzadkimi i specyficznymi komunikatami. Najniższa entropia z częstymi i ogólnymi komunikatami. W międzyczasie mamy spektrum systemów równoważnych entropii, które mogą mieć zarówno rzadkie, jak i ogólne komunikaty lub częste, ale konkretne komunikaty.
źródło
Nie sądzę, że można udzielić uniwersalnej „intuicyjnej” odpowiedzi. Dam ci odpowiedź intuicyjną dla niektórych osób, takich jak fizycy. Logarytm ma na celu uzyskanie średniej energii systemu. Oto szczegóły.
Shannon użył słowa „ entropia ”, ponieważ zaadaptował to pojęcie z mechaniki statystycznej . W mechanice statystycznej występuje przełomowy rozkład nazwany na cześć Boltzmanna. Co ciekawe, jest to obecnie ważna dystrybucja w uczeniu maszynowym!
Czy to jest dla Ciebie wystarczająco intuicyjne? To dla mnie, ale byłem fizykiem teoretycznym w poprzednim życiu. Możesz także przejść do głębszego poziomu intuicji, łącząc się z jeszcze starszymi koncepcjami termodynamicznymi, takimi jak temperatura i twórczość Boltzmanna i Clausiusa.
źródło