Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w termodynamice.
Widzę pewne wyraźne heurystyczne powody, dla których jest to praktyczne:
- Bez względu na to, czy wartości wejściowe są ujemne, softmax wyprowadza wartości dodatnie, które sumują się do jednego.
- Zawsze można ją rozróżnić, co jest przydatne w przypadku propagacji reklamowej.
- Ma parametr „temperatury” kontrolujący, jak łagodna powinna być sieć w kierunku małych wartości (gdy T jest bardzo duże, wszystkie wyniki są równie prawdopodobne, gdy bardzo małe, wybierana jest tylko wartość z największym wejściem).
Czy funkcja Boltzmanna jest używana tylko jako softmax ze względów praktycznych, czy też istnieje głębsze powiązanie z termodynamiką / fizyką statystyczną?
Odpowiedzi:
Według mojej wiedzy nie ma głębszego powodu, poza tym, że wielu ludzi, którzy wzięli ANN poza etap Perceptronu, byli fizykami.
Oprócz wymienionych korzyści ten konkretny wybór ma więcej zalet. Jak wspomniano, ma jeden parametr, który określa zachowanie wyjściowe. Które z kolei można zoptymalizować lub dostroić samo w sobie.
Krótko mówiąc, jest to bardzo przydatna i dobrze znana funkcja, która osiąga rodzaj „regularyzacji” w tym sensie, że nawet największe wartości wejściowe są ograniczone.
Oczywiście istnieje wiele innych możliwych funkcji, które spełniają te same wymagania, ale są one mniej znane w świecie fizyki. I przez większość czasu są trudniejsze w użyciu.
źródło
funkcja softmax jest również używana w modelowaniu dyskretnym, jest taka sama jak model logit, jeśli założysz, że z każdą klasą jest przypisana funkcja użyteczności, a funkcja użyteczności jest równa wyjściu sieci neuronowej + warunek błędu następujący po Gumbel rozkład, prawdopodobieństwo przynależności do klasy jest równe funkcji softmax z siecią neuronową jako wejściem. Zobacz: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf
istnieją alternatywy dla modelu logit, takie jak model probit, w którym zakłada się, że błąd jest zgodny ze standardowym rozkładem normalnym, co jest lepszym założeniem. jednak prawdopodobieństwo byłoby trudne do rozwiązania i jego rozwiązanie jest kosztowne, dlatego nie jest powszechnie stosowane w sieci neuronowej
źródło