Dwa punkty:
- Przerwanie jest również zwykle porównywane z zespołami sieci neuronowych. Wydaje się, że ma on pewne zalety w zakresie wydajności szkolenia i uśredniania kilku sieci neuronowych.
- Wypadanie jest łatwiejsze do skalibrowania niż regularyzacji. Jest tylko jeden hiperparametr, którym jest wskaźnik porzucania, a ludzie często używają 0,5 podczas treningu (a następnie 1,0 po ocenie kursu :)), patrz np. Ten przykład TensorFlow .
W każdym razie jestem trochę sceptyczny wobec badań empirycznych sieci neuronowych. Jest zbyt wiele hiperparametrów, aby je dostroić, od topologii sieci, przez procedurę optymalizacji spadku gradientu, po funkcje aktywacji i cokolwiek testujesz, jak regularyzacja. Następnie cała sprawa jest stochastyczna i zwykle wzrost wydajności jest tak mały, że trudno jest statystycznie sprawdzić różnice. Wielu autorów nawet nie zawraca sobie głowy przeprowadzaniem testów statystycznych. Po prostu uśredniają wzajemną walidację i deklarują, że model, który uzyskał najwyższy przyrost punktu dziesiętnego, został zwycięzcą.
Może się okazać, że badanie promujące porzucenie nauki jest sprzeczne z kolejną promocją regularyzacji.
Myślę, że wszystko sprowadza się do preferencji estetycznych. Porzucenie IMHO brzmi bardziej biologicznie prawdopodobne niż regularyzacja. Wydaje się również, że łatwiej skalibrować. Tak więc osobiście wolę to podczas korzystania z frameworka takiego jak TensorFlow. Jeśli będziemy musieli korzystać z własnej sieci neuronowej, co często robimy, zastosujemy regularyzację, ponieważ łatwiej było ją wdrożyć.