Jednym z hiperparametrów dla sieci LSTM jest temperatura. Co to jest?
źródło
Jednym z hiperparametrów dla sieci LSTM jest temperatura. Co to jest?
Temperatura jest hiperparametrem LSTM (i ogólnie sieci neuronowych) wykorzystywanych do kontrolowania losowości prognoz poprzez skalowanie logów przed zastosowaniem softmax. Na przykład, w TensorFlow za Magenta realizacji z LSTMs, temperatura reprezentuje ile podzielić logits przez przed obliczania Softmax.
Gdy temperatura jest 1 obliczamy Softmax bezpośrednio na logits (nieskalowanym wyjściowy wcześniejszych warstwach) i stosując temperaturę 0,6 model oblicza Softmax o , co daje większą wartość. Wykonywanie softmax na większych wartościach sprawia, że LSTM jestbardziej pewny(potrzeba mniej danych wejściowych, aby aktywować warstwę wyjściową), ale takżebardziej konserwatywnyw swoich próbkach (jest mniej prawdopodobne, że próbkuje od mało prawdopodobnych kandydatów). Zastosowanie wyższej temperatury powoduje łagodniejszy rozkład prawdopodobieństwa w klasach i sprawia, że RNN jest łatwiej „wzbudzany” przez próbki, co powodujewiększą różnorodność,a takżewięcej błędów.
Funkcja softmax normalizuje kandydatów przy każdej iteracji sieci w oparciu o ich wartości wykładnicze, zapewniając, że wyjścia sieci są od zera do jednego za każdym razem.
Temperatura zwiększa zatem wrażliwość na kandydatów o niskim prawdopodobieństwie. W LSTM kandydat lub próbka może być literą, słowem lub nutą, na przykład:
- z artykułu w Wikipedii na temat funkcji softmax
Hinton, Geoffrey, Oriol Vinyals i Jeff Dean. „Destylowanie wiedzy w sieci neuronowej”. nadruk arXiv arXiv: 1503.02531 (2015). arXiv