Zastosowanie funkcji softmax na wektorze spowoduje „prawdopodobieństwa” i wartości od do .
Ale możemy również podzielić każdą wartość przez sumę wektora, co da prawdopodobieństwa i wartości od do .
Przeczytałem tutaj odpowiedź , ale mówi ona, że powodem jest to, że jest różniczkowalna, chociaż obie funkcje są różniczkowalne.
Odpowiedzi:
Proponowana funkcja ma osobliwość, ilekroć suma elementów wynosi zero.
Załóżmy, że twój wektor to[ - 1 , 13), 23)] . Ten wektor ma sumę 0, więc podział nie jest zdefiniowany. Funkcja nie jest tutaj rozróżnialna.
Dodatkowo, jeśli jeden lub więcej elementów wektora jest ujemnych, ale suma jest niezerowa, wynik nie jest prawdopodobieństwem.
Załóżmy, że twój wektor to[ - 1 , 0 , 2 ] . Ma to sumę 1, więc zastosowanie tej funkcji powoduje [ - 1 , 0 , 2 ] , co nie jest wektorem prawdopodobieństwa, ponieważ zawiera elementy ujemne i elementy przekraczające 1.
Patrząc szerzej, możemy motywować określoną formę funkcji softmax z perspektywy rozszerzenia binarnej regresji logistycznej na przypadek trzech lub więcej kategorycznych wyników.
Robienie rzeczy takich jak przyjmowanie wartości bezwzględnych lub kwadratów, jak sugerowano w komentarzach, oznacza, że i mają takie samo przewidywane prawdopodobieństwo; oznacza to, że model nie został zidentyfikowany . Natomiast jest monotoniczny i dodatni dla wszystkich rzeczywistych , więc wynikiem softmax jest (1) wektor prawdopodobieństwa i (2) zidentyfikowany jest wielomianowy model logistyczny.- x x exp ( x ) xexp( x ) x
źródło
Softmax ma dwa składniki:
Przekształć komponenty na e ^ x. Dzięki temu sieć neuronowa może pracować z prawdopodobieństwami logarytmicznymi, a nie zwykłymi. To zamienia zwykłą operację mnożenia prawdopodobieństw na dodawanie, co jest o wiele bardziej naturalne dla opartej na algebrze liniowej struktury sieci neuronowych.
Normalizuj ich sumę do 1, ponieważ jest to całkowite prawdopodobieństwo, którego potrzebujemy.
Ważną tego konsekwencją jest to, że twierdzenie Bayesa jest bardzo naturalne dla takiej sieci, ponieważ jest to po prostu zwielokrotnienie prawdopodobieństw znormalizowanych przez mianownik.
Trywialny przypadek sieci jednowarstwowej z aktywacją softmax jest równoważny regresji logistycznej.
Specjalny przypadek dwuskładnikowego softmax jest równoważny aktywacji sigmoidalnej, która jest popularna, gdy istnieją tylko dwie klasy. W klasyfikacji wielu klas softmax jest stosowany, jeśli klasy wzajemnie się wykluczają, a jeśli chodzi o niezależność, stosuje się sigmoid pod względem składowym.
źródło