Prawdopodobieństwo dziennika ujemnego (równanie 80) jest również znane jako wieloklasowa entropia krzyżowa (patrz: Rozpoznawanie wzorców i uczenie maszynowe, sekcja 4.3.4), ponieważ w rzeczywistości są to dwie różne interpretacje tej samej formuły.
równanie.57 jest ujemnym prawdopodobieństwem logarytmicznym rozkładu Bernoulliego, podczas gdy równanie 80 jest ujemnym logarytmicznym prawdopodobieństwem rozkładu wielomianowego z jedną obserwacją (wersja wieloklasowa Bernoulliego).
W przypadku problemów z klasyfikacją binarną funkcja softmax wyprowadza dwie wartości (od 0 do 1 i sumę do 1), aby podać prognozę dla każdej klasy. Podczas gdy funkcja sigmoid wypisuje jedną wartość (od 0 do 1), aby dać prognozę jednej klasy (więc druga klasa to 1-p).
Zatem równanie 80 nie może być bezpośrednio stosowane do wyjścia sigmoidalnego, chociaż jest to zasadniczo ta sama strata co równanie 55.
Zobacz także tę odpowiedź .
Poniżej przedstawiono prostą ilustrację związku między (sigmoid + binarna entropia krzyżowa) a (softmax + multiklasowa entropia krzyżowa) w przypadku problemów z klasyfikacją binarną.
0.5
σ(wx+b)=0.5
wx+b=0
ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1−w2)x+(b1−b2)=0
Poniżej przedstawiono granice decyzji uzyskane przy użyciu tych dwóch metod, które są prawie identyczne.