W ostatnich latach Konwolucyjne sieci neuronowe (CNN) stały się najnowocześniejszymi urządzeniami do rozpoznawania obiektów w wizji komputerowej. Zazwyczaj CNN składa się z kilku warstw splotowych, po których następują dwie w pełni połączone warstwy. Za intuicją kryje się to, że warstwy splotowe uczą się lepszej reprezentacji danych wejściowych, a następnie w pełni połączone warstwy uczą się klasyfikować tę reprezentację na podstawie zestawu etykiet.
Jednak zanim CNN zaczęły dominować, maszyny wektorów wsparcia (SVM) były najnowocześniejsze. Wydaje się zatem rozsądne stwierdzenie, że SVM jest nadal silniejszym klasyfikatorem niż dwuwarstwowa w pełni połączona sieć neuronowa. Zastanawiam się zatem, dlaczego najnowocześniejsze CNN używają w pełni połączonych warstw do klasyfikacji zamiast SVM? W ten sposób uzyskasz to, co najlepsze z obu światów: silną reprezentację cech i silny klasyfikator, zamiast silnej reprezentacji cech, ale tylko słaby klasyfikator ...
Jakieś pomysły?