Dlaczego CNN kończą się warstwami FC?

11

Z mojego zrozumienia, CNN składają się z dwóch części. Pierwsza część (warstwy konw / pula), która wykonuje ekstrakcję cech, a druga część (warstwy fc), która dokonuje klasyfikacji na podstawie cech.

Skoro w pełni połączone sieci neuronowe nie są najlepszymi klasyfikatorami (tzn. Osiągają lepsze wyniki od SVM i RF przez większość czasu), dlaczego CNN kończą się z warstwami FC, zamiast powiedzieć, że SVM lub RF?

Mary93
źródło

Odpowiedzi:

4

To nie jest takie proste. Po pierwsze, SVM jest w pewnym sensie rodzajem sieci neuronowej (możesz nauczyć się rozwiązania SVM poprzez propagację wsteczną). Zobacz, co * jest * sztuczną siecią neuronową? . Po drugie, nie możesz z góry wiedzieć, który model będzie działał lepiej, ale w przypadku architektury w pełni neuromorficznej możesz uczyć się wag od końca do końca, a dołączanie SVM lub RF do ostatniej aktywacji CNN ukrytej warstwy to po prostu procedura ad hoc . Może działać lepiej, a może nie, nie możemy wiedzieć bez testowania.

Ważną częścią jest to, że w pełni splotowa architektura jest zdolna do uczenia się reprezentacji, co jest przydatne z wielu powodów. Tym razem może to całkowicie zredukować lub wyeliminować inżynierię funkcji w twoim problemie.

Jeśli chodzi o warstwy FC, są one matematycznie równoważne z warstwami splotowymi 1x1. Zobacz post Yanna Lecuna , który transkrybuję poniżej:

W sieciach splotowych nie ma czegoś takiego jak „w pełni połączone warstwy”. Istnieją tylko warstwy splotu z jądrem splotu 1x1 i pełną tabelą połączeń.

Jest to zbyt rzadko rozumiany fakt, że ConvNets nie muszą mieć danych wejściowych o stałym rozmiarze. Możesz trenować je na wejściach, które tworzą pojedynczy wektor wyjściowy (bez zasięgu przestrzennego), a następnie zastosować je do większych obrazów. Zamiast jednego wektora wyjściowego otrzymujesz przestrzenną mapę wektorów wyjściowych. Każdy wektor widzi okna wejściowe w różnych miejscach na wejściu.

W tym scenariuszu „w pełni połączone warstwy” naprawdę działają jak zwoje 1x1.

Firebug
źródło
0

Gdybyś znał Twierdzenie o braku obiadu (Wolpert i Macready), nie rozkoszowałbyś się jednym klasyfikatorem i zapytałbyś, dlaczego nie jest najlepszy. Twierdzenie NFL stwierdza zasadniczo, że „we wszechświecie wszystkich funkcji kosztów nie ma jednego najlepszego klasyfikatora”. Po drugie, wydajność klasyfikatora zawsze „zależy od danych”.

Ugly Duckling Twierdzenie (Watanabe) stanowi w istocie, że „we wszechświecie wszystkich zestawów cech, nie ma nikogo, najlepszy zestaw funkcji.”

Twierdzenie Covera stwierdza, że ​​jeśli , tzn. Wymiarowość danych jest większa niż wielkość próbki, to problem klasyfikacji binarnej jest zawsze liniowo rozdzielny.p>n

W świetle powyższego, a także Razor Razor , nigdy nie ma nic lepszego niż cokolwiek innego, niezależnie od funkcji danych i kosztów.

Zawsze twierdziłem, że same CNN nie są zespołami klasyfikatorów, dla których można ocenić różnorodność (kappa vs błąd).

wrktsj
źródło