Interpretacja statystyczna maksymalnego rozkładu entropii

23

Użyłem zasady maksymalnej entropii, aby uzasadnić użycie kilku rozkładów w różnych ustawieniach; jednakże muszę jeszcze być w stanie sformułować statystyczną, w przeciwieństwie do teorii informacji, interpretację maksymalnej entropii. Innymi słowy, co maksymalizacja entropii implikuje w statystycznych właściwościach rozkładu?

Czy ktoś natknął się lub może odkrył, że statystyczna interpretacja maks. rozkłady entropii, które nie odwołują się do informacji, a jedynie do koncepcji probabilistycznych?

Jako przykład takiej interpretacji (niekoniecznie prawdziwej): „Dla przedziału o dowolnej długości L w domenie RV (zakładając, że jego ciągłość 1-d dla uproszczenia) maksymalne prawdopodobieństwo, które może być zawarte w tym przedziale jest zminimalizowane przez maksymalny rozkład entropii. ”

Widzicie więc, że nie ma mowy o „informatywności” ani innych bardziej filozoficznych ideach, tylko implikacje probabilistyczne.

distributions entropy intuition information-theory maximum-entropy Annika
źródło

3

Myślę, że musisz sprecyzować, czego szukasz: entropia jest przecież „miarą statystyczną” jako wariancja itp., Więc maksymalny rozkład entropii maksymalizuje entropię jest doskonale dobrym opisem statystycznym. Wydaje mi się więc, że musisz wyjść poza statystyki, by wymyślić „uzasadnienie”

seanv507,

1

Seanv: Zgadzam się, że entropia, jako funkcja statystyczna, jest tak samo „statystyczna” jak wariancja, oczekiwana wartość, skośność itp. Jednak używając przykładów średniej i odchylenia standardowego, mają one czysto probabilistyczne interpretacje za pomocą twierdzeń Markowa i Czebyszewa i ostatecznie w jedno z wielu centralnych twierdzeń granicznych, a także intuicyjnie jako sumy długoterminowe (dla średniej) i błąd RMS (dla odchylenia standardowego). Być może powinienem ponownie sformułować moje pytanie, aby przeczytać „Probabilistyczna interpretacja maksymalnych rozkładów entropii”.

Annika

1

Annika, maksymalny rozkład entropii ma następującą interpretację: jeśli są zmiennymi losowymi, to prawdopodobieństwo warunkowe jako gdzie jest maksymalnym rozkładem entropii ze zbioru . Zobacz także ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1

X_{1}, X_{2}, \dots

$X_1,X_2,\dots$

P (\cdot | X_{1} + \dots + X_{n} = n a) \to P^{*} (\cdot)

$P(\cdot|X_1+\dots+X_n=na)\to P^*(\cdot)$

n \to \infty

$n\to \infty$

P^{*}

$P^*$

{P : E_{P} X = a}

$\{P:\mathbb{E}_PX=a\}$

Ashok

2

Dzięki Ashok. Przyjrzę się bardziej szczegółowo temu artykułowi. Wydaje się, że jest to szczególny przypadek maksymalizacji entropii dla danego środka, ale wciąż jestem ciekawy, co robi operacja maksymalizacji entropii Shanona matematycznie tak, że powyższy wynik się utrzymuje? Czy skutecznie minimalizuje maksymalną gęstość lub średnie stężenie miary prawdopodobieństwa?

Annika

19

To naprawdę nie jest moja dziedzina, więc niektóre rozważania:

Zacznę od koncepcji zaskoczenia . Co to znaczy być zaskoczonym? Zazwyczaj oznacza to, że wydarzyło się coś, czego nie oczekiwano. Zaskocz więc koncepcję probabilistyczną i jako taką można ją objaśnić (pisał o tym IJ Good). Zobacz także Wikipedia i Bayesian Surprise .

Weźmy konkretny przypadek tak / nie, coś może się zdarzyć lub nie. Dzieje się tak z prawdopodobieństwem $p$ . Powiedz, jeśli p = 0,9 i tak się stanie, nie jesteś naprawdę zaskoczony. Jeśli $p=0.05$ i tak się dzieje, jesteś nieco zaskoczony. A jeśli $p=0.0000001$ i tak się dzieje, jesteś naprawdę zaskoczony. Tak więc naturalną miarą „wartości zaskoczenia w obserwowanym wyniku” jest jakaś (anty) monotoniczna funkcja prawdopodobieństwa tego, co się wydarzyło. Wydaje się naturalne (i działa dobrze ...) przyjęcie logarytmu prawdopodobieństwa tego, co się stało, a następnie wrzucamy znak minus, aby uzyskać liczbę dodatnią. Ponadto, przyjmując logarytm, koncentrujemy się na kolejności zaskoczenia, a w praktyce prawdopodobieństwa są często znane mniej więcej na zamówienie .

Definiujemy więc

Niespodzianka (ZA) = - \log p (ZA)

$\text{Surprise}(A) = -\log p(A)$ gdzie

A

$A$ jest obserwowanym wynikiem, a

p (A)

$p(A)$ jest jego prawdopodobieństwem.

Teraz możemy zapytać, jaka jest oczekiwana niespodzianka . Niech $X$ będzie zmienną losową Bernoulliego z prawdopodobieństwem $p$ . Ma dwa możliwe wyniki, 0 i 1. Odpowiednimi wartościami niespodzianki jest

\begin{aligned} Niespodzianka (0) & = - \log (1 - p) \\ Niespodzianka (1) & = - \log p \end{aligned}

$\begin{align} \text{Surprise}(0) &= -\log(1-p) \\ \text{Surprise}(1) &= -\log p \end{align}$ więc niespodzianka przy obserwowaniu

X

$X$ jest sama zmienną losową z oczekiwaniami

p \cdot - \log p + (1 - p) \cdot - \log (1 - p)

$p \cdot -\log p + (1-p) \cdot -\log(1-p)$ i to jest --- niespodzianka! --- entropia

X

$X$ ! Tak więcoczekiwanie naentropię jestniespodzianką!

To pytanie dotyczy maksymalnej entropii . Dlaczego ktoś miałby chcieć stosować maksymalny rozkład entropii? Cóż, musi tak być, ponieważ chcą być maksymalnie zaskoczeni! Dlaczego ktoś miałby tego chcieć?

Można na to spojrzeć w następujący sposób: chcesz się czegoś dowiedzieć i do tego celu skonfiguruj pewne doświadczenia edukacyjne (lub eksperymenty ...). Jeśli już wiesz wszystko na ten temat, zawsze możesz doskonale przewidzieć, więc nigdy się nie zdziwisz. Wtedy nigdy nie zdobędziesz nowego doświadczenia, więc nie ucz się niczego nowego (ale wiesz już wszystko - nie ma się czego uczyć, więc jest OK). W bardziej typowej sytuacji, w której jesteś zdezorientowany, nie potrafisz doskonale przewidzieć, jest szansa na naukę! Prowadzi to do pomysłu, że możemy zmierzyć „ilość możliwego uczenia się” za pomocą oczekiwanej niespodzianki , czyli entropii. Tak więc maksymalizacja entropii jest niczym innym jak maksymalizacją możliwości uczenia się. To brzmi jak przydatna koncepcja, która może być przydatna w projektowaniu eksperymentów i takich rzeczy.

Poetyckim przykładem jest dobrze znany

Wenn einer eine reise macht, dann kann er was erzählen ...

Jeden praktyczny przykład: chcesz zaprojektować system do testów online (online, co oznacza, że nie wszyscy dostają te same pytania, pytania są wybierane dynamicznie w zależności od wcześniejszych odpowiedzi, w pewien sposób zoptymalizowane dla każdej osoby).

Jeśli zadajesz zbyt trudne pytania, aby nigdy ich nie opanować, niczego się nie uczysz. Oznacza to, że musisz obniżyć poziom trudności. Jaki jest optymalny poziom trudności, czyli poziom trudności, który maksymalizuje tempo uczenia się? Niech prawdopodobieństwo prawidłowej odpowiedzi wynosi $p$ . Chcemy wartości $p$ która maksymalizuje entropię Bernoulliego. Ale to $p=0.5$ . Więc starasz się zadać pytania, w których prawdopodobieństwo uzyskania poprawnej odpowiedzi (od tej osoby) wynosi 0,5.

Następnie w przypadku ciągłej zmiennej losowej $X$ . Jak możemy być zaskoczeni obserwując $X$ ? Prawdopodobieństwo jakiegokolwiek konkretnego wyniku $\{X=x\}$ wynosi zero, definicja $-\log p$ jest bezużyteczna. Będziemy jednak zaskoczeni, jeśli prawdopodobieństwo zaobserwowania czegoś takiego jak $x$ jest małe, to znaczy, jeśli wartość funkcji gęstości $f(x)$ jest mała (przy założeniu, że $f$ jest ciągła). To prowadzi do definicji

Niespodzianka (x) = - \log fa (x)

$\DeclareMathOperator{\E}{\mathbb{E}} \text{Surprise}(x) = -\log f(x)$ Przy tej definicji oczekiwaną niespodzianką po obserwacji

X

$X$ jest

mi {- \log fa (X)} = - \int fa (x) \log fa (x) re x

$\E \{-\log f(X)\} = -\int f(x) \log f(x) \; dx$ , który jest oczekiwany zaskoczeniem obserwowanie

X

$X$ jest różnica entropia

X

$X$ . Może to być również postrzegane jako oczekiwane prawdopodobieństwo logarytmu.

$X$

kjetil b halvorsen
źródło

5

To jedno z najlepszych i intuicyjnych wyjaśnień maksymalnej entropii, jakie widziałem!

Vladislavs Dovgalecs,

3

Chociaż nie jestem ekspertem od teorii informacji i maksymalnej entropii, interesowałem się nią przez jakiś czas.

Entropia jest miarą niepewności rozkładu prawdopodobieństwa, która została uzyskana zgodnie z zestawem kryteriów. To i powiązane miary charakteryzują rozkłady prawdopodobieństwa. Jest to wyjątkowa miara, która spełnia te kryteria. Jest to podobne do przypadku prawdopodobieństwa, który, jak pięknie wyjaśniono w Jaynes (2003), jest unikalną miarą spełniającą niektóre bardzo pożądane kryteria dla dowolnej miary niepewności logicznych stwierdzeń.

Każda inna miara niepewności rozkładu prawdopodobieństwa inna niż entropia musiałaby naruszać jedno lub więcej kryteriów użytych do zdefiniowania entropii (w przeciwnym razie byłaby to entropia). Tak więc, jeśli miałbyś jakieś ogólne stwierdzenie pod względem prawdopodobieństwa, które w jakiś sposób dało takie same wyniki jak maksymalna entropia ... to byłaby to maksymalna entropia!

Najbliżej stwierdzenia prawdopodobieństwa dotyczące maksymalnych rozkładów entropii, jakie do tej pory znalazłem, jest twierdzenie o koncentracji Jaynesa . Można to wyraźnie wyjaśnić w Kapur i Kesavan (1992). Oto luźne przekształcenie:

$p$ $n$ $p_i$ $i=1,...,n$ $m$ $m+1$

$S$ $m+1$ $S_{\textrm{max}}$

$N$

2 N (S_{max} - S) \sim χ_{n - m - 1}^{2} .

$2N(S_{\textrm{max}} - S) \sim \chi^2_{n-m-1}.$

({S.}_{max} - \frac{χ_{n - m - 1}^{2)} (0,95)}{2) N.}, {S.}_{max}) .

$\left( S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}, S_{\textrm{max}} \right).$

S_{max} - \frac{χ_{n - m - 1}^{2} (0.95)}{2 N}

$S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}$

ET Jaynes (2003) Teoria prawdopodobieństwa: logika nauki. Cambridge University Press.

JN Kapur i .K. Kesavan (1992) Zasady optymalizacji entropii z aplikacjami. Academic Press, Inc.

jvbraun
źródło

3

$\sigma$

„Dlatego w tej interpretacji podstawowe centralne twierdzenie graniczne wyraża fakt, że entropia na symbol sum niezależnych zmiennych losowych o średniej zero i wspólnej wariancji zmierza do maksimum. Wydaje się to niezwykle rozsądne; w rzeczywistości jest to wyrażenie drugie prawo termodynamiki, które Eddington uważał za „najwyższą pozycję wśród praw Natury”.

Nie zbadałem jeszcze konsekwencji tego, ani nie jestem pewien, czy w pełni je rozumiem.

[edycja: poprawiona literówka]

F. Tusell
źródło

Interpretacja statystyczna maksymalnego rozkładu entropii

Odpowiedzi: