Kiedy traktujemy względną, znormalizowaną funkcję użyteczności jako pmf, jaka jest interpretacja entropii Shannona lub informacji Shannona?

10

Załóżmy, że Ω jest zbiorem wzajemnie wykluczających się wyników dyskretnej zmiennej losowej, a f to funkcja użyteczności, w której 0<f(ω)1 , Ωf(ω)=1 itd.

Gdy f jest równomiernie rozłożone Ω i f jest funkcją masy prawdopodobieństwa , Shannon entropii H(Ω)=Ωf(ω)log1f(ω) jest zmaksymalizowane (=log|Ω|), a gdy jeden element wΩma całąmasęf, entropia Shannona jest zminimalizowana (w rzeczywistości0). Odpowiada to intuicji na tematsurprisalu(lubzmniejszenia niepewności) oraz wyników iniepewności(lubspodziewanego surprisalu) i zmiennych losowych:

  • Kiedy f jest równomiernie rozmieszczone, niepewność jest zmaksymalizowana, a im więcej wyników dla równomiernego rozkładu masy, tym bardziej jesteśmy niepewni.
  • Kiedy f skupia całą swoją masę w jednym wyniku, nie mamy niepewności.
  • Kiedy przypisujemy wynikowi prawdopodobieństwo 1 , nie otrzymujemy żadnych informacji („jesteśmy zaskoczeni”), kiedy faktycznie je obserwujemy.
  • Kiedy przypisujemy wynikowi prawdopodobieństwo coraz bliższe 0 , obserwacja jego faktycznego występowania staje się coraz bardziej pouczająca („zaskakująca”).

(To wszystko nie mówi nic o znacznie bardziej konkretnej - ale mniej epistemicznej - kodującej interpretacji informacji / entropii Shannona.)

Jednakże, gdy f ma interpretację funkcji użytkowych , istnieje sensical interpretacja lubf(ω)log1log1f(ω) ? Wydaje mi się, że mogą istnieć:f(ω)log1f(ω)

  • jeśli jako PMF reprezentuje równomierny rozkład na Ω , to f jako funkcja użyteczności odpowiada obojętności na wyniki, która nie może być większa *fΩf
  • funkcja użyteczności, w której jeden wynik ma całą użyteczność, a reszta nie ma żadnej (tak wypaczonej użyteczności, jak to możliwe), odpowiada bardzo silnym preferencjom względnym - brakowi obojętności.

Czy rozwija się odniesienie do tego? Czy coś przeoczyłem na temat ograniczeń porównywania funkcji masy prawdopodobieństwa i znormalizowanych narzędzi względnych względem dyskretnych zmiennych losowych?

* Zdaję sobie sprawę z krzywych obojętności i nie widzę, w jaki sposób mogą one być odpowiednie dla mojego pytania z różnych powodów, poczynając od skupienia się na kategorycznej przestrzeni próbki i na tym, że nie jestem zainteresowany „obojętnością” per se, ale raczej jak interpretować narzędzia jako prawdopodobieństwa i jak interpretować funkcjonały na prawdopodobieństwach, gdy (dyskretny) „rozkład prawdopodobieństwa”, o którym mowa, faktycznie lub (dodatkowo) ma interpretację funkcji użyteczności.

EM23
źródło
Nie mam odpowiedzi, ale twoje pytanie sprawia, że ​​myślę o użyciu entropii w problemie uczciwego cięcia ciasta: en.wikipedia.org/wiki/Fair_cake-cutting Standardowy model polega na tym, że ciasto jest przedziałem [0, 1], i istnieje agentów o różnych znormalizowanych miarach wartości w tym przedziale. Przyjmuje się, że miary są nieatomowe, ale nie ma dalszych założeń dotyczących ich „entropii”. Zastanawiające może być to, co możemy powiedzieć o problemach z wycinaniem ciast, w których funkcje użyteczności ograniczyły entropię. n
Erel Segal-Halevi

Odpowiedzi:

3

Przed dyskusją Entropia Shannona należy omówić jeszcze jedną kwestię: wydaje się, że masz na myśli raczej kardynalną użyteczność niż porządek .

W obu przypadkach można oczywiście wyprowadzić „znormalizowane” funkcje narzędziowe. Ale pojęcie „względnej preferencji” można zdefiniować i zmierzyć tylko w kontekście kardynalnej użyteczności.

Problem nie pojawia się w dwóch skrajnościach, które opisujesz, ale we wszystkich możliwych przypadkach pośrednich.

Prosty przykład: załóżmy, że istnieją trzy „wyniki”, (powiedzmy, poziomy konsumpcji lub trzy różne towary w określonej ilości). Twoja funkcja narzędziowa przypisała im wartościA,B,C

V(A)=1,V(B)=9,V(C)=90

W zwykłej użyteczności to nam tylko to mówi

A<prB<prC

Z pewnością możemy je znormalizować dzieląc przez aby uzyskać100

a ranking trzech wyników zostaje zachowany

UV(A)=0.01,UV(B)=0.09,UV(C)=0.9

Ale pod zwykłą użytecznością moglibyśmy równie dobrze użyć innej funkcji użytecznej, która by to przypisała

W(A)=31,W(B)=32,W(C)=37

i uzyskaj

UW(A)=0.31,UW(B)=0.32,UW(C)=0.37

VW

WV

Czy znasz problemy związane z użytecznością kardynalną?

Alecos Papadopoulos
źródło
VU
3

Po wymianie z OP w mojej drugiej odpowiedzi, popracujmy trochę z jego podejściem.

XX={x1,...,xk}Pr(X=xi)=pi,i=1,...,k

Xu(xi)>0i

(1)w(X):w(xi)=u(xi)i=1ku(xi),i=1,...,k

i powiedziano nam to

(2)w(xi)=pi

w(xi)w(xi)

w(xi)

(3)E[w(X)]=i=1kpiw(xi)=i=1kpi2

pii=1kpi=1

(4)argminE[w(X)]=p:p1=p2=...=pk=1/k

i uzyskaliśmy ogólny wynik:

X

w(X) E[w(X)]=1/k

w(X)

Mam jednak wrażenie, że OP nie ma na myśli tego. Przeciwnie, traktuje Entropię Shannona jako metrykę, która ma pewne pożądane właściwości algebraiczne i być może może zmierzyć zwięźle w znaczący sposób coś interesującego.

Dokonano tego wcześniej w dziedzinie ekonomii, szczególnie w organizacji przemysłowej, gdzie zbudowano wskaźniki koncentracji rynku („stopień konkurencji / monopolistyczna struktura rynku”). Zwracam uwagę na dwa, które wydają się tutaj szczególnie istotne.

nsi

H=i=1nsi2

w(X)

Re=i=1nsilnsi

Encaoua, D., i Jacquemin, A. (1980). Stopień monopolu, wskaźniki koncentracji i zagrożenie wejścia. Międzynarodowy przegląd ekonomiczny, 87–105. , zapewniają aksjomatyczne wyprowadzenie „dopuszczalnych” wskaźników stężenia, tj. określają właściwości, które taki wskaźnik musi posiadać. Ponieważ ich podejście jest abstrakcyjne, uważam, że przydatne może być to, do czego PO chce zbadać i nadać znaczenie.

Alecos Papadopoulos
źródło
1

v=v20.5

W związku z tym należy najpierw podać znaczącą skalę stosunku do użyteczności. Jednym ze sposobów na to jest interpretacja naturalnego poziomu użyteczności 0. Bez tej specyfikacji entropia nie ma znaczenia.

HRSE
źródło