W literaturze dotyczącej uczenia maszynowego, aby przedstawić rozkład prawdopodobieństwa, często używana jest funkcja softmax. Czy jest tego powód? Dlaczego nie jest używana inna funkcja?
machine-learning
distributions
softmax
SHASHANK GUPTA
źródło
źródło
Softmax jest również uogólnieniem logistycznej funkcji sigmoidalnej, a zatem niesie właściwości sigmoidu, takie jak łatwość różnicowania i znajdowanie się w przedziale 0-1. Wyjście logistycznej funkcji sigmoidalnej również mieści się w przedziale od 0 do 1, a zatem jest naturalnie odpowiednim wyborem do reprezentowania prawdopodobieństwa. Jego pochodna jest również wyrażona pod względem własnej produkcji. Jeśli jednak twoja funkcja ma wyjście wektorowe, musisz użyć funkcji Softmax, aby uzyskać rozkład prawdopodobieństwa dla wektora wyjściowego. Istnieją inne zalety korzystania z Softmax, o których wspominała Indie AI, chociaż niekoniecznie ma to coś wspólnego z teorią Universal Approximation, ponieważ Softmax nie jest funkcją używaną tylko w sieciach neuronowych.
Bibliografia
źródło