Motywowanie esicy jednostki wyjściowe w sieciach neuronowych zaczynające nieznormalizowanych prawdopodobieństw dziennika liniowy i

12

Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.P(y=1|x)

Podsumowując, niektóre materiały pozwalają, by był neuronem wyjściowym przed zastosowaniem aktywacji, gdzie jest wyjściem poprzedniej ukrytej warstwy, jest wektorem ciężarów, a jest skalarem skalarnym. Wektor wejściowy jest oznaczony (którego jest funkcją), a wartość wyjściowa jest oznaczona gdzie jest funkcją sigmoidalną. Książka chce zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Z drugiego akapitu strony 183:

z=wTh+b
hwbxhy=ϕ(z)ϕyz

W tej chwili pomijamy zależność od aby omówić, jak zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Sigmoid można motywować, konstruując nienormalizowany rozkład prawdopodobieństwa , który nie sumuje się do 1. Możemy następnie podzielić przez odpowiednią stałą, aby uzyskać prawidłowy rozkład prawdopodobieństwa. Jeśli zaczniemy od założenia, że ​​nienormalizowane prawdopodobieństwa logarytmiczne są liniowe w i , możemy potęgować potęgowanie, aby uzyskać nietypowe prawdopodobieństwa. Następnie normalizujemy się, aby zobaczyć, że daje to rozkład Bernoulliego kontrolowany przez sigmoidalną transformację z: xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Pytania: Mam wątpliwości co do dwóch rzeczy, szczególnie pierwszej:

  1. Skąd się bierze początkowe założenie? Dlaczego nieznormalizowanych prawdopodobieństwo dziennika liniowa i ? Czy ktoś może dać mi trochę informacji na temat tego, jak autorzy zaczęli od ?z log ˜ P ( y ) = y zyzlogP~(y)=yz
  2. Jak przebiega ostatnia linia?
HBeel
źródło

Odpowiedzi:

8

Istnieją dwa możliwe wyniki dla . Jest to bardzo ważne, ponieważ ta właściwość zmienia znaczenie mnożenia. Istnieją dwa możliwe przypadki:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Ponadto należy zauważyć, że nieznormalizowane prawdopodobieństwo logarytmiczne dla jest stałe. Ta właściwość wywodzi się z głównego założenia. Zastosowanie dowolnej funkcji deterministycznej do stałej wartości da stały wynik. Ta właściwość uprości ostateczną formułę, gdy przeprowadzimy normalizację w odniesieniu do wszystkich możliwych prawdopodobieństw, ponieważ musimy tylko znać tylko nietypowe prawdopodobieństwo dla a dla to zawsze stała. A ponieważ dane wyjściowe z sieci z nietypowym prawdopodobieństwem logarytmicznym będziemy potrzebować tylko jednego wyjścia, ponieważ drugie przyjmuje się za stałe.y=0y=1y=0

Następnie stosujemy potęgowanie do nietypowego prawdopodobieństwa logarytmu, aby uzyskać nietypowe prawdopodobieństwo.

P~(y=1)=ezP~(y=0)=e0=1

Następnie normalizujemy prawdopodobieństwa, dzieląc każde nietypowe prawdopodobieństwo przez sumę wszystkich możliwych nietypowych prawdopodobieństw.

P(y=1)=ez1+ezP(y=0)=11+ez

Interesuje nas tylko , ponieważ to właśnie oznacza prawdopodobieństwo funkcji sigmoidalnej. Uzyskana funkcja nie wygląda jak sigmoid na pierwszy rzut oka, ale są one równe i łatwo je pokazać.P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

Ostatnie zdanie może na początku być mylące, ale jest to tylko sposób na pokazanie, że ta ostateczna funkcja prawdopodobieństwa jest sigmoidem. Wartość konwertuje na i na (lub możemy powiedzieć, że byłby bez zmian).(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

Jak widzimy, jest to tylko sposób na pokazanie relacji między iσP(y)

itdxer
źródło
„Ponadto ważne jest, aby zauważyć, że nienormalizowane prawdopodobieństwo logarytmiczne dla jest stałe. Ta właściwość wywodzi się z głównego założenia.” Zakładamy, że już zdecydowaliśmy, że ? y=0y=1
HBeel,
Myślę, że moje zamieszanie wynikało z faktu, że sigmoid daje modelowi prawdopodobieństwo niezależnie od rzeczywistej etykiety. Dzięki! y=1
HBeel,
Nie chcę być gruba, ale jak tu jest liniowego w i . Spodziewałbym się czegoś w postaci . Zdaję sobie sprawę, że się do produktu dałoby sumę, która zbliżyłaby mnie do liniowości, ale nie wydaje się to być bezpośrednie na podstawie tego, co stwierdził autor. y z a y + b z + cy×zyzay+bz+clogyz
zebullon,
Rozumiem, to interesujące pytanie. Nie zwracałem uwagi na to stwierdzenie, kiedy po raz pierwszy przeczytałem pytanie. Teraz też wygląda mi to dziwnie. Jednym z problemów jest to, że zmienna binarna y nie jest pewna, jak sprawdzić właściwości funkcji liniowej w tych okolicznościach. Myślę, że będzie to miało sens, jeśli zadasz osobne pytania, być może ktoś wyjaśni ci, dlaczego zostało napisane w ten sposób.
itdxer
2

Uważam również, że ten fragment książki jest trudny do naśladowania, a powyższa odpowiedź itdxer zasługuje na sporo czasu, aby go zrozumieć, także dla kogoś, kto nie ma wystarczającej znajomości prawdopodobieństwa i myślenia matematycznego. Zrobiłem to jednak, czytając odpowiedź wstecz, więc zacznij od sigmoidu z

P(y=1)=ez1+ez=11+ez

i spróbuj wrócić do.

logP~(y)=yz

To ma sens, dlaczego zaczęli wyjaśniać od yz - jest to zgodne z projektem, tak samo jak wersja ostateczna

σ((2y1)z)

przez konstrukcję pozwala uzyskać -1 dla y = 0 i 1 dla y = 1, które są jedynymi możliwymi wartościami y pod Bernoullim.

Jakub Jurek
źródło
0

Oto bardziej formalne sformułowanie, które spodoba się osobom z teoretyką teoretyczną.

Niech będzie rv Bernoulliego i niech oznacza miarę przesunięcia do , tj. Dla , i niech oznacza jego niezormalizowany odpowiednik.YPYy{0,1}PY(y)=P(Y=y)P~Y

Mamy następujący łańcuch implikacji:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

Ostatnia równość to inteligentny sposób mapowania na{ - 1 , 1 }{0,1}{1,1}

Gabriel Romon
źródło