Czym jest zakłopotanie?

42

Natknąłem się na termin zakłopotanie, które odnosi się do uśrednionego logarytmicznie odwrotnego prawdopodobieństwa na niewidzialnych danych. Artykuł Wikipedii na temat zakłopotania nie nadaje temu samemu intuicyjnego znaczenia.

Tę miarę zakłopotania wykorzystano w pracy pLSA .

Czy ktoś może wyjaśnić potrzebę i intuicyjne znaczenie pomiaru zakłopotania ?

Uczeń
źródło
Jak obliczyć zakłopotanie dla pLSA. Mam datamatrix który ma liczbę i według algorytmu TEM p ( d ) i p ( w | d ) są obliczane. Xp(d)p(w|d)
Uczeń
3
Sprawdziłem wskaźniki 5 książek o eksploracji danych / uczeniu maszynowym / analiz predykcyjnych Nisbett, Larose, Witten, Torgo i Shemueli (plus współautorzy) i ten termin nie występuje w żadnym z nich. Jestem zakłopotany :)
zbicyclist
1
Zakłopotanie to kolejna wymyślna nazwa niepewności. Można to uznać za ocenę wewnętrzną w stosunku do oceny zewnętrznej. Jan Jurafsky wyjaśnia to elegancko przykładami zgodnymi z modelowaniem językowym tutaj na youtube.com/watch?v=BAN3NB_SNHY
bicepjai
2
@zbicyclist, Jeśli szukasz przykładów na wolności, jest to szczególnie powszechne w NLP, a szczególnie do oceny rzeczy takich jak modele językowe.
Matt Krause,
W niektórych dziedzinach (np. Ekonomii) ludzie mówią o liczbach równoważnych, tak że np. gdzie H jest entropią opartą na logarytmach naturalnych, jest równoważną liczbą równie powszechnych kategorii. Tak więc dwie kategorie, każda o prawdopodobieństwie 0,5, dają entropię ln 2, a potęgowanie zwraca 2 jako liczbę jednakowo popularnych kategorii. W przypadku nierównych prawdopodobieństw ekwiwalent liczb nie jest na ogół liczbą całkowitą. exp(H)Hln2
Nick Cox

Odpowiedzi:

21

Przeglądałeś artykuł Wikipedii na temat zakłopotania . Daje to kłopot z dyskretnym rozkładem jako

2xp(x)log2p(x)

który można również zapisać jako

exp(xp(x)loge1p(x))

tj. jako ważona średnia geometryczna odwrotności prawdopodobieństw. W przypadku ciągłego rozkładu suma zamieniłaby się w całkę.

W artykule podano również sposób oszacowania zakłopotania dla modelu przy użyciu fragmentów danych testowychN

2i=1N1Nlog2q(xi)

które można również napisać

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

lub na wiele innych sposobów, a to powinno sprawić, że będzie jeszcze bardziej jasne, skąd pochodzi „log-średnie odwrotne prawdopodobieństwo”.

Henz
źródło
Czy jest jakieś szczególne rozróżnienie między tym, kiedy e jest wykładnikiem, a nie 2?
Henry E
2
10alogax=blogbx
Tak myślałem. Natrafiłem na tę odpowiedź, gdy próbowałem zrozumieć, dlaczego fragment kodu używa e do obliczania zakłopotania, gdy wszystkie inne formuły, które wcześniej widziałem, używały 2. Zdaję sobie teraz sprawę, jak ważne jest wiedzieć, jaką wartość ma środowisko wykorzystuje jako podstawę do obliczenia utraty kłód
Henry E
27

Uznałem to za dość intuicyjne:

Zakłopotanie wszystkiego, co oceniasz, na podstawie danych, które oceniasz, w pewnym sensie mówi ci, że „ta rzecz ma rację tak często, jak byłaby to kość x”.

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

pandy wszędzie
źródło
To ciekawy artykuł; może nie tak dogłębnie, ale dobra lektura wprowadzająca.
Monica Heddneck,
1
Uznałem również, że ten artykuł jest pomocny, jamesmccaffrey.wordpress.com/2016/08/16/…
user2561747
11

Też się zastanawiałem. Pierwsze wytłumaczenie nie jest złe, ale oto moje 2 naty za cokolwiek, co jest warte.


Po pierwsze, zakłopotanie nie ma nic wspólnego z określaniem, jak często odgadujesz coś dobrze. Ma to więcej wspólnego z charakteryzowaniem złożoności sekwencji stochastycznej.

2xp(x)log2p(x)

Najpierw anulujmy dziennik i potęgowanie.

2xp(x)log2p(x)=1xp(x)p(x)

Myślę, że warto zauważyć, że zakłopotanie jest niezmienne w stosunku do bazy, której używasz do definiowania entropii. W tym sensie zakłopotanie jest nieskończenie bardziej wyjątkowe / mniej arbitralne niż entropia jako miara.

Związek z kościami

11212×1212=2

N

1(1N1N)N=N

Tak więc zakłopotanie reprezentuje liczbę boków uczciwej kości, która po rzuceniu tworzy sekwencję z taką samą entropią, jak podany rozkład prawdopodobieństwa.

Liczba stanów

NN+1NϵNN+1ϵNxpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

ϵ0

1xNpxpx

Kiedy sprawiasz, że przewracanie jednej strony kostki staje się coraz bardziej mało prawdopodobne, zakłopotanie kończy się na tym, że ta strona nie istnieje.

Alex Eftimiades
źródło
3
Z pewnością to tylko ~ 1,39 nata warte?
Matt Krause,
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}
5

XX

P(X=X)2H(X)=12H(X)=1perplexity

Aby wyjaśnić, zakłopotanie jednolitym rozkładem X to po prostu | X | liczba elementów. Jeśli spróbujemy odgadnąć wartości, które przyjmą próbki z jednolitego rozkładu X, po prostu dokonując domysłów z X, będziemy poprawni 1 / | X | = 1 / zakłopotanie czasu. Ponieważ rozkład jednorodny jest najtrudniejszy do odgadnięcia, możemy użyć 1 / zakłopotanie jako dolnej granicy / heurystycznego przybliżenia tego, jak często nasze domysły będą prawidłowe.

użytkownik49404
źródło