Jak głęboki jest związek między funkcją softmax w ML a rozkładem Boltzmanna w termodynamice?

12

Funkcja softmax, powszechnie stosowana w sieciach neuronowych do przekształcania liczb rzeczywistych na prawdopodobieństwa, jest taką samą funkcją jak rozkład Boltzmanna, rozkład prawdopodobieństwa nad energiami dla zespołu cząstek w równowadze termicznej w danej temperaturze T w termodynamice.

Widzę pewne wyraźne heurystyczne powody, dla których jest to praktyczne:

  • Bez względu na to, czy wartości wejściowe są ujemne, softmax wyprowadza wartości dodatnie, które sumują się do jednego.
  • Zawsze można ją rozróżnić, co jest przydatne w przypadku propagacji reklamowej.
  • Ma parametr „temperatury” kontrolujący, jak łagodna powinna być sieć w kierunku małych wartości (gdy T jest bardzo duże, wszystkie wyniki są równie prawdopodobne, gdy bardzo małe, wybierana jest tylko wartość z największym wejściem).

Czy funkcja Boltzmanna jest używana tylko jako softmax ze względów praktycznych, czy też istnieje głębsze powiązanie z termodynamiką / fizyką statystyczną?

ahura
źródło
1
Nie rozumiem, dlaczego przyciąga to bliskich głosów - jest to całkowicie rozsądne pytanie.
Matt Krause,
2
+1 do @ MattKrause - NN są z pewnością na temat, podobnie jak - myślę - fizyka statystyczna.
Sean Wielkanoc
Widzę, że pytanie jest bardziej „otwarte” niż większość pytań SO, w tym sensie, że nie szukam rozwiązania problemu, ale bardziej ogólną wiedzę. Nie mogłem jednak wymyślić lepszego miejsca, w którym można by o to poprosić, ani bardziej konkretnego sposobu, aby o to zapytać.
ahura

Odpowiedzi:

3

Według mojej wiedzy nie ma głębszego powodu, poza tym, że wielu ludzi, którzy wzięli ANN poza etap Perceptronu, byli fizykami.

Oprócz wymienionych korzyści ten konkretny wybór ma więcej zalet. Jak wspomniano, ma jeden parametr, który określa zachowanie wyjściowe. Które z kolei można zoptymalizować lub dostroić samo w sobie.

Krótko mówiąc, jest to bardzo przydatna i dobrze znana funkcja, która osiąga rodzaj „regularyzacji” w tym sensie, że nawet największe wartości wejściowe są ograniczone.

Oczywiście istnieje wiele innych możliwych funkcji, które spełniają te same wymagania, ale są one mniej znane w świecie fizyki. I przez większość czasu są trudniejsze w użyciu.

cherub
źródło
2

funkcja softmax jest również używana w modelowaniu dyskretnym, jest taka sama jak model logit, jeśli założysz, że z każdą klasą jest przypisana funkcja użyteczności, a funkcja użyteczności jest równa wyjściu sieci neuronowej + warunek błędu następujący po Gumbel rozkład, prawdopodobieństwo przynależności do klasy jest równe funkcji softmax z siecią neuronową jako wejściem. Zobacz: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

istnieją alternatywy dla modelu logit, takie jak model probit, w którym zakłada się, że błąd jest zgodny ze standardowym rozkładem normalnym, co jest lepszym założeniem. jednak prawdopodobieństwo byłoby trudne do rozwiązania i jego rozwiązanie jest kosztowne, dlatego nie jest powszechnie stosowane w sieci neuronowej

Jan
źródło