Prawdopodobieństwo krzyżowe lub prawdopodobieństwo dziennika w warstwie wyjściowej

31

Przeczytałem tę stronę: http://neuralnetworksanddeeplearning.com/chap3.html

i powiedział, że sigmoidalna warstwa wyjściowa z entropią krzyżową jest dość podobna do warstwy wyjściowej softmax z prawdopodobieństwem logarytmicznym.

co się stanie, jeśli użyję sigmoid z logarytmem prawdopodobieństwa lub softmax z entropią krzyżową w warstwie wyjściowej? czy to w porządku? ponieważ widzę, że istnieje niewielka różnica w równaniu między entropią krzyżową (równ. 57):

C=1nx(ylna+(1y)ln(1a))

i prawdopodobieństwo dziennika (równ. 80):

C=1nx(lnayL)
malioboro
źródło

Odpowiedzi:

51

Prawdopodobieństwo dziennika ujemnego (równanie 80) jest również znane jako wieloklasowa entropia krzyżowa (patrz: Rozpoznawanie wzorców i uczenie maszynowe, sekcja 4.3.4), ponieważ w rzeczywistości są to dwie różne interpretacje tej samej formuły.

równanie.57 jest ujemnym prawdopodobieństwem logarytmicznym rozkładu Bernoulliego, podczas gdy równanie 80 jest ujemnym logarytmicznym prawdopodobieństwem rozkładu wielomianowego z jedną obserwacją (wersja wieloklasowa Bernoulliego).

W przypadku problemów z klasyfikacją binarną funkcja softmax wyprowadza dwie wartości (od 0 do 1 i sumę do 1), aby podać prognozę dla każdej klasy. Podczas gdy funkcja sigmoid wypisuje jedną wartość (od 0 do 1), aby dać prognozę jednej klasy (więc druga klasa to 1-p).

Zatem równanie 80 nie może być bezpośrednio stosowane do wyjścia sigmoidalnego, chociaż jest to zasadniczo ta sama strata co równanie 55.

Zobacz także tę odpowiedź .


Poniżej przedstawiono prostą ilustrację związku między (sigmoid + binarna entropia krzyżowa) a (softmax + multiklasowa entropia krzyżowa) w przypadku problemów z klasyfikacją binarną.

0.5

σ(wx+b)=0.5
wx+b=0

ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1w2)x+(b1b2)=0

Poniżej przedstawiono granice decyzji uzyskane przy użyciu tych dwóch metod, które są prawie identyczne.

dontloo
źródło
Do jakich równań się odwołujesz? W książce równania są ponumerowane inaczej. Może to jest konkretne wydanie książki? Czy możesz to wyjaśnić? Patrzę na książkę na users.isr.ist.utl.pt/~wurmd/Livros/school/… , strona 209 (sekcja 4.3.4).
nbro
@nbro ah przepraszam za zamieszanie, miałem na myśli równania na linkowanej stronie podane w pytaniu.
dontloo