Zakłopotanie i entropia krzyżowa dla modeli n-gramowych

10

Próbowanie zrozumienia związku między entropią krzyżową a zakłopotaniem. Na ogół dla modelu M , Perplexity (M) = 2 ^ entropii (M) . Czy ta relacja obowiązuje dla wszystkich różnych n-gramów, tj. Unigram, bigram itp.?

Margalit
źródło
To właściwie definicja zakłopotania; , co wynika z niego;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Odpowiedzi:

9

Tak, zakłopotanie jest zawsze równe dwóm mocy entropii. Nie ma znaczenia, jaki masz model, n-gram, unigram lub sieć neuronowa.

Istnieje kilka powodów, dla których ludzie modelujący język lubią zakłopotanie zamiast po prostu używać entropii. Jednym z nich jest to, że z powodu wykładnika poprawa zakłopotania „wydaje się”, że jest bardziej znacząca niż równoważna poprawa entropii. Innym jest fakt, że zanim zaczęli używać zakłopotania, złożoność modelu językowego zgłoszono za pomocą uproszczonego pomiaru współczynnika rozgałęzienia, który jest bardziej podobny do zakłopotania niż do entropii.

Aaron
źródło
1

Zgadzam się z odpowiedzią @Aaron z niewielką modyfikacją:

Nie zawsze jest równa dwóm mocy entropii. W rzeczywistości będzie (podstawa do logów) do potęgi entropii. Jeśli użyłeś e jako swojej bazy, byłaby to e ^ entropia.

Prashant Gupta
źródło