Zakłopotanie i entropia krzyżowa dla modeli n-gramowych

10

Próbowanie zrozumienia związku między entropią krzyżową a zakłopotaniem. Na ogół dla modelu M , Perplexity (M) = 2 ^ entropii (M) . Czy ta relacja obowiązuje dla wszystkich różnych n-gramów, tj. Unigram, bigram itp.?

natural-language entropy perplexity Margalit
źródło

To właściwie definicja zakłopotania; , co wynika z niego;)

\sqrt[N]{Π_{i = 1}^{N} \frac{1}{P (w_{i} | w_{1}, . . . w_{i - 1})}}

$\sqrt[N]{\Pi^N_{i=1} \frac{1}{P(w_i|w_1, ... w_{i-1})}}$

WavesWashSands

9

Tak, zakłopotanie jest zawsze równe dwóm mocy entropii. Nie ma znaczenia, jaki masz model, n-gram, unigram lub sieć neuronowa.

Istnieje kilka powodów, dla których ludzie modelujący język lubią zakłopotanie zamiast po prostu używać entropii. Jednym z nich jest to, że z powodu wykładnika poprawa zakłopotania „wydaje się”, że jest bardziej znacząca niż równoważna poprawa entropii. Innym jest fakt, że zanim zaczęli używać zakłopotania, złożoność modelu językowego zgłoszono za pomocą uproszczonego pomiaru współczynnika rozgałęzienia, który jest bardziej podobny do zakłopotania niż do entropii.

Aaron
źródło

1

Zgadzam się z odpowiedzią @Aaron z niewielką modyfikacją:

Nie zawsze jest równa dwóm mocy entropii. W rzeczywistości będzie (podstawa do logów) do potęgi entropii. Jeśli użyłeś e jako swojej bazy, byłaby to e ^ entropia.

Prashant Gupta
źródło

Zakłopotanie i entropia krzyżowa dla modeli n-gramowych

Odpowiedzi: