Jednowarstwowa sieć neuronowa z aktywacją ReLU równą SVM?

10

Załóżmy, że mam prostą jednowarstwową sieć neuronową z n wejściami i jednym wyjściem (zadanie klasyfikacji binarnej). Jeśli ustawię funkcję aktywacji w węźle wyjściowym jako funkcję sigmoidalną, wówczas wynikiem będzie klasyfikator regresji logistycznej.

W tym samym scenariuszu, jeśli zmienię aktywację wyjścia na ReLU (rektyfikowaną jednostkę liniową), to czy uzyskana struktura jest taka sama lub podobna do SVM?

Jeśli nie to dlaczego?

OGŁOSZENIE
źródło
masz jakieś hipotezy, dlaczego tak może być? powód, dla którego pojedynczy perceptron = logistyka jest właśnie z powodu aktywacji - są one zasadniczo tym samym modelem, matematycznie (choć może być inaczej trenowanym) - wagi liniowe + sigmoid zastosowany do mnożenia macierzy. SVM działają zupełnie inaczej - szukają najlepszej linii do oddzielenia danych - są bardziej geometryczne niż „ważący” / „macierzowy”. Dla mnie nie ma nic o ReLU, co powinno skłonić mnie do myślenia = ah, są one takie same dla SVM. (logistyczne i liniowe svm mają jednak bardzo podobne wyniki)
metjush
maksymalny margines svm i funkcja aktywacji relu wyglądają tak samo. Stąd pytanie.
AD
„SVM działają zupełnie inaczej - szukają najlepszej linii do oddzielenia danych - są bardziej geometryczne niż„ ciężki ”/„ macierzowy ”. To trochę falisty - WSZYSTKIE klasyfikatory liniowe szukają najlepszej linii do oddzielenia danych, w tym regresji logistycznej i perceptron
AD

Odpowiedzi:

11

E=max(1ty,0)

Aby utrata sieci miała taką samą formę jak SVM, możemy po prostu usunąć wszelkie nieliniowe funkcje aktywacyjne z warstwy wyjściowej i użyć utraty zawiasu do propagacji wstecznej.

E=ln(1+exp(ty))

Zatem pod względem funkcji utraty SVM i regresja logistyczna są dość bliskie, chociaż SVM używają zupełnie innego algorytmu do szkolenia i wnioskowania na podstawie wektorów pomocniczych.

W rozdziale 7.1.2 książki Rozpoznawanie wzorców i uczenie maszynowe znajduje się miła dyskusja na temat związku SVM i regresji logistycznej .

wprowadź opis zdjęcia tutaj

dontloo
źródło
dzięki za wskazanie książki. Mam wrażenie, że oprócz funkcji aktywacyjnych, prawdziwa różnica polega na zastosowanych algorytmach optymalizacyjnych. W przypadku LR możemy zastosować proste nieograniczone zejście gradientu, podczas gdy w SVM zazwyczaj rozwiązujemy ograniczoną optymalizację.
AD