Tło: Studiuję rozdział 6 głębokiego uczenia się autorstwa Iana Goodfellowa, Yoshui Bengio i Aarona Courville'a. W sekcji 6.2.2.2 (strony 182 z 183, które można obejrzeć tutaj ) zastosowanie sigmoid do wyjścia jest uzasadnione.
Podsumowując, niektóre materiały pozwalają, by był neuronem wyjściowym przed zastosowaniem aktywacji, gdzie jest wyjściem poprzedniej ukrytej warstwy, jest wektorem ciężarów, a jest skalarem skalarnym. Wektor wejściowy jest oznaczony (którego jest funkcją), a wartość wyjściowa jest oznaczona gdzie jest funkcją sigmoidalną. Książka chce zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Z drugiego akapitu strony 183:
W tej chwili pomijamy zależność od aby omówić, jak zdefiniować rozkład prawdopodobieństwa dla za pomocą wartości . Sigmoid można motywować, konstruując nienormalizowany rozkład prawdopodobieństwa , który nie sumuje się do 1. Możemy następnie podzielić przez odpowiednią stałą, aby uzyskać prawidłowy rozkład prawdopodobieństwa. Jeśli zaczniemy od założenia, że nienormalizowane prawdopodobieństwa logarytmiczne są liniowe w i , możemy potęgować potęgowanie, aby uzyskać nietypowe prawdopodobieństwa. Następnie normalizujemy się, aby zobaczyć, że daje to rozkład Bernoulliego kontrolowany przez sigmoidalną transformację z:
Pytania: Mam wątpliwości co do dwóch rzeczy, szczególnie pierwszej:
- Skąd się bierze początkowe założenie? Dlaczego nieznormalizowanych prawdopodobieństwo dziennika liniowa i ? Czy ktoś może dać mi trochę informacji na temat tego, jak autorzy zaczęli od ?z log ˜ P ( y ) = y z
- Jak przebiega ostatnia linia?
Uważam również, że ten fragment książki jest trudny do naśladowania, a powyższa odpowiedź itdxer zasługuje na sporo czasu, aby go zrozumieć, także dla kogoś, kto nie ma wystarczającej znajomości prawdopodobieństwa i myślenia matematycznego. Zrobiłem to jednak, czytając odpowiedź wstecz, więc zacznij od sigmoidu z
i spróbuj wrócić do.
To ma sens, dlaczego zaczęli wyjaśniać od yz - jest to zgodne z projektem, tak samo jak wersja ostateczna
przez konstrukcję pozwala uzyskać -1 dla y = 0 i 1 dla y = 1, które są jedynymi możliwymi wartościami y pod Bernoullim.
źródło
Oto bardziej formalne sformułowanie, które spodoba się osobom z teoretyką teoretyczną.
Niech będzie rv Bernoulliego i niech oznacza miarę przesunięcia do , tj. Dla , i niech oznacza jego niezormalizowany odpowiednik.Y PY y∈{0,1} PY(y)=P(Y=y) P~Y
Mamy następujący łańcuch implikacji:
Ostatnia równość to inteligentny sposób mapowania na{ - 1 , 1 }{0,1} {−1,1}
źródło