Użyłem zasady maksymalnej entropii, aby uzasadnić użycie kilku rozkładów w różnych ustawieniach; jednakże muszę jeszcze być w stanie sformułować statystyczną, w przeciwieństwie do teorii informacji, interpretację maksymalnej entropii. Innymi słowy, co maksymalizacja entropii implikuje w statystycznych właściwościach rozkładu?
Czy ktoś natknął się lub może odkrył, że statystyczna interpretacja maks. rozkłady entropii, które nie odwołują się do informacji, a jedynie do koncepcji probabilistycznych?
Jako przykład takiej interpretacji (niekoniecznie prawdziwej): „Dla przedziału o dowolnej długości L w domenie RV (zakładając, że jego ciągłość 1-d dla uproszczenia) maksymalne prawdopodobieństwo, które może być zawarte w tym przedziale jest zminimalizowane przez maksymalny rozkład entropii. ”
Widzicie więc, że nie ma mowy o „informatywności” ani innych bardziej filozoficznych ideach, tylko implikacje probabilistyczne.
Odpowiedzi:
To naprawdę nie jest moja dziedzina, więc niektóre rozważania:
Zacznę od koncepcji zaskoczenia . Co to znaczy być zaskoczonym? Zazwyczaj oznacza to, że wydarzyło się coś, czego nie oczekiwano. Zaskocz więc koncepcję probabilistyczną i jako taką można ją objaśnić (pisał o tym IJ Good). Zobacz także Wikipedia i Bayesian Surprise .
Weźmy konkretny przypadek tak / nie, coś może się zdarzyć lub nie. Dzieje się tak z prawdopodobieństwemp . Powiedz, jeśli p = 0,9 i tak się stanie, nie jesteś naprawdę zaskoczony. Jeśli p = 0,05 i tak się dzieje, jesteś nieco zaskoczony. A jeśli p = 0,0000001 i tak się dzieje, jesteś naprawdę zaskoczony. Tak więc naturalną miarą „wartości zaskoczenia w obserwowanym wyniku” jest jakaś (anty) monotoniczna funkcja prawdopodobieństwa tego, co się wydarzyło. Wydaje się naturalne (i działa dobrze ...) przyjęcie logarytmu prawdopodobieństwa tego, co się stało, a następnie wrzucamy znak minus, aby uzyskać liczbę dodatnią. Ponadto, przyjmując logarytm, koncentrujemy się na kolejności zaskoczenia, a w praktyce prawdopodobieństwa są często znane mniej więcej na zamówienie .
Definiujemy więcNiespodzianka ( A ) = - logp ( A )
gdzie ZA jest obserwowanym wynikiem, a p ( A ) jest jego prawdopodobieństwem.
Teraz możemy zapytać, jaka jest oczekiwana niespodzianka . NiechX będzie zmienną losową Bernoulliego z prawdopodobieństwem p . Ma dwa możliwe wyniki, 0 i 1. Odpowiednimi wartościami niespodzianki jest
Niespodzianka ( 0 )Niespodzianka ( 1 )= - log( 1 - p )= - logp
więc niespodzianka przy obserwowaniuX jest sama zmienną losową z oczekiwaniami
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
i to jest --- niespodzianka! --- entropiaX ! Tak więcoczekiwanie naentropię jestniespodzianką!
To pytanie dotyczy maksymalnej entropii . Dlaczego ktoś miałby chcieć stosować maksymalny rozkład entropii? Cóż, musi tak być, ponieważ chcą być maksymalnie zaskoczeni! Dlaczego ktoś miałby tego chcieć?
Można na to spojrzeć w następujący sposób: chcesz się czegoś dowiedzieć i do tego celu skonfiguruj pewne doświadczenia edukacyjne (lub eksperymenty ...). Jeśli już wiesz wszystko na ten temat, zawsze możesz doskonale przewidzieć, więc nigdy się nie zdziwisz. Wtedy nigdy nie zdobędziesz nowego doświadczenia, więc nie ucz się niczego nowego (ale wiesz już wszystko - nie ma się czego uczyć, więc jest OK). W bardziej typowej sytuacji, w której jesteś zdezorientowany, nie potrafisz doskonale przewidzieć, jest szansa na naukę! Prowadzi to do pomysłu, że możemy zmierzyć „ilość możliwego uczenia się” za pomocą oczekiwanej niespodzianki , czyli entropii. Tak więc maksymalizacja entropii jest niczym innym jak maksymalizacją możliwości uczenia się. To brzmi jak przydatna koncepcja, która może być przydatna w projektowaniu eksperymentów i takich rzeczy.
Poetyckim przykładem jest dobrze znany
Jeden praktyczny przykład: chcesz zaprojektować system do testów online (online, co oznacza, że nie wszyscy dostają te same pytania, pytania są wybierane dynamicznie w zależności od wcześniejszych odpowiedzi, w pewien sposób zoptymalizowane dla każdej osoby).
Jeśli zadajesz zbyt trudne pytania, aby nigdy ich nie opanować, niczego się nie uczysz. Oznacza to, że musisz obniżyć poziom trudności. Jaki jest optymalny poziom trudności, czyli poziom trudności, który maksymalizuje tempo uczenia się? Niech prawdopodobieństwo prawidłowej odpowiedzi wynosip . Chcemy wartości p która maksymalizuje entropię Bernoulliego. Ale to p = 0,5 . Więc starasz się zadać pytania, w których prawdopodobieństwo uzyskania poprawnej odpowiedzi (od tej osoby) wynosi 0,5.
Następnie w przypadku ciągłej zmiennej losowejX . Jak możemy być zaskoczeni obserwując X ? Prawdopodobieństwo jakiegokolwiek konkretnego wyniku { X= x } wynosi zero, definicja - logp jest bezużyteczna. Będziemy jednak zaskoczeni, jeśli prawdopodobieństwo zaobserwowania czegoś takiego jak x jest małe, to znaczy, jeśli wartość funkcji gęstości fa( x ) jest mała (przy założeniu, że fa jest ciągła). To prowadzi do definicji
Niespodzianka ( x ) = - logfa( x )
Przy tej definicji oczekiwaną niespodzianką po obserwacji X jest
mi{ - logfa( X) } = - ∫fa( x ) logfa( x )rex
, który jest oczekiwany zaskoczeniem obserwowanieX jest różnica entropiaX . Może to być również postrzegane jako oczekiwane prawdopodobieństwo logarytmu.
źródło
Chociaż nie jestem ekspertem od teorii informacji i maksymalnej entropii, interesowałem się nią przez jakiś czas.
Entropia jest miarą niepewności rozkładu prawdopodobieństwa, która została uzyskana zgodnie z zestawem kryteriów. To i powiązane miary charakteryzują rozkłady prawdopodobieństwa. Jest to wyjątkowa miara, która spełnia te kryteria. Jest to podobne do przypadku prawdopodobieństwa, który, jak pięknie wyjaśniono w Jaynes (2003), jest unikalną miarą spełniającą niektóre bardzo pożądane kryteria dla dowolnej miary niepewności logicznych stwierdzeń.
Każda inna miara niepewności rozkładu prawdopodobieństwa inna niż entropia musiałaby naruszać jedno lub więcej kryteriów użytych do zdefiniowania entropii (w przeciwnym razie byłaby to entropia). Tak więc, jeśli miałbyś jakieś ogólne stwierdzenie pod względem prawdopodobieństwa, które w jakiś sposób dało takie same wyniki jak maksymalna entropia ... to byłaby to maksymalna entropia!
Najbliżej stwierdzenia prawdopodobieństwa dotyczące maksymalnych rozkładów entropii, jakie do tej pory znalazłem, jest twierdzenie o koncentracji Jaynesa . Można to wyraźnie wyjaśnić w Kapur i Kesavan (1992). Oto luźne przekształcenie:
ET Jaynes (2003) Teoria prawdopodobieństwa: logika nauki. Cambridge University Press.
JN Kapur i .K. Kesavan (1992) Zasady optymalizacji entropii z aplikacjami. Academic Press, Inc.
źródło
Nie zbadałem jeszcze konsekwencji tego, ani nie jestem pewien, czy w pełni je rozumiem.
[edycja: poprawiona literówka]
źródło