Zasadniczo moje pytanie brzmi: w perceptronach wielowarstwowych perceptrony są używane z funkcją aktywacji sigmoidalnej. Tak więc w regule aktualizacji jest obliczany jako
Czym zatem ten „sigmoidalny” Perceptron różni się od regresji logistycznej?
Powiedziałbym, że jednowarstwowy sigmoidalny perceptron jest równoważny regresji logistycznej w tym sensie, że obaj używają w regule aktualizacji. Również oba zwracają w prognozie. Jednak w wielowarstwowych perceptronach funkcja aktywacji sigmoidalnej jest używana do zwracania prawdopodobieństwa, a nie sygnału włączenia i wyłączenia w przeciwieństwie do regresji logistycznej i perceptronu jednowarstwowego. znak( y =1
Myślę, że użycie terminu „Perceptron” może być nieco niejednoznaczne, dlatego przedstawię nieco tła w oparciu o moje obecne rozumienie perceptronów jednowarstwowych:
Klasyczna reguła perceptronowa
Po pierwsze, klasyczny perceptron F. Rosenblatta, w którym mamy funkcję krokową:
zaktualizować wagi
Więc jest obliczany jako
Spadek gradientu
Korzystając z opadania gradientu, optymalizujemy (minimalizujemy) funkcję kosztów
gdzie mamy „rzeczywiste” liczby, więc widzę to w zasadzie analogiczne do regresji liniowej z tą różnicą, że nasze wyniki klasyfikacji są progowe.
W tym przypadku robimy krok w kierunku ujemnego gradientu, gdy aktualizujemy wagi
Ale tutaj mamy zamiast y =
Ponadto obliczamy sumę błędów kwadratowych dla pełnego przejścia przez cały zestaw danych treningowych (w trybie uczenia wsadowego) w przeciwieństwie do klasycznej reguły perceptronów, która aktualizuje wagi wraz z nadejściem nowych próbek treningowych (analogicznie do stochastycznego spadku gradientu - online uczenie się).
Funkcja aktywacji sigmoidalnej
Oto moje pytanie:
W wielowarstwowych perceptronach perceptrony są używane z funkcją aktywacji sigmoidalnej. Tak więc w regule aktualizacji jest obliczany jako
Czym zatem ten „sigmoidalny” Perceptron różni się od regresji logistycznej?
Odpowiedzi:
Jeśli zminimalizujesz średni błąd kwadratu, różni się on od regresji logistycznej. Regresja logistyczna jest zwykle związana z utratą entropii krzyżowej, oto strona wprowadzająca z biblioteki scikit-learn .
(Zakładam, że perceptrony wielowarstwowe to to samo, co nazywane sieciami neuronowymi).
Jeśli zastosowałeś utratę entropii krzyżowej (z regularyzacją) dla jednowarstwowej sieci neuronowej, to będzie to ten sam model (model log-liniowy) co regresja logistyczna. Jeśli zamiast tego używasz sieci wielowarstwowej, można ją traktować jako regresję logistyczną z parametrycznymi nieliniowymi funkcjami podstawowymi.
Wynik zarówno regresji logistycznej, jak i sieci neuronowych z funkcją aktywacji sigmoidalnej można interpretować jako prawdopodobieństwa. Ponieważ utrata entropii krzyżowej jest w rzeczywistości prawdopodobieństwem ujemnej logi zdefiniowanym przez rozkład Bernoulliego.
źródło
Ponieważ opadanie gradientu aktualizuje każdy parametr w taki sposób, że zmniejsza błąd wyjściowy, który musi być kontynuacją funkcji wszystkich parametrów. Aktywacji opartej na progu nie można rozróżnić, dlatego stosuje się aktywację sigmoidalną lub tanh.
Oto jednowarstwowy NN
jeśli funkcja aktywacyjna byłaby podstawową funkcją krokową (progową), pochodna wrt byłaby .jot zk
tutaj jest link, który to ogólnie wyjaśnia.
Edycja: Może źle zrozumiałem, co masz na myśli przez perceptron. Jeśli się nie mylę, perceptron jest ważoną sumą danych wejściowych. Jeśli zmienisz progowość za pomocą funkcji logistycznej, zmieni się ona w regresję logistyczną. Wielowarstwowe NN z sigmoidalnymi (logistycznymi) funkcjami aktywacyjnymi to kaskadowe warstwy złożone z regresji logistycznych.
źródło
Intuicyjnie myślę o perceptronie wielowarstwowym jako o obliczaniu nieliniowej transformacji na moich cechach wejściowych, a następnie zasilaniu tych transformowanych zmiennych w regresję logistyczną.
Nie wiem o tobie, ale na moich kursach modelarskich i badaniach próbowałem wszelkiego rodzaju rozsądnych i głupich transformacji cech wejściowych, aby poprawić ich znaczenie i ogólne przewidywanie modelu. Wyrównywanie rzeczy, przyjmowanie kłód, łączenie dwóch w jedną stawkę itp. Nie miałem wstydu, ale miałem ograniczoną cierpliwość.
źródło