Zakładając dość rozsądną normalizację danych, oczekiwanie wag powinno być zerowe lub zbliżone do niego. Rozsądne może być zatem ustawienie wszystkich początkowych ciężarów na zero, ponieważ dodatnia początkowa waga będzie musiała pójść dalej, jeśli faktycznie będzie to ujemna waga i odwrotnie. To jednak nie działa. Jeśli wszystkie wagi są takie same, wszystkie będą miały ten sam błąd, a model niczego się nie nauczy - nie ma źródła asymetrii między neuronami.
Zamiast tego moglibyśmy utrzymać wagi bardzo blisko zera, ale odróżnić je, inicjując je do małych, niezerowych liczb. To sugeruje link do samouczka. Ma tę samą zaletę inicjalizacji zerowej, że jest zbliżona do wartości oczekiwanej „najlepszego odgadnięcia”, ale symetria została również złamana na tyle, aby algorytm działał.
To podejście ma dodatkowe problemy. Niekoniecznie jest prawdą, że mniejsze liczby będą działać lepiej, zwłaszcza jeśli sieć neuronowa jest głęboka. Gradienty obliczone w propagacji wstecznej są proporcjonalne do wag; bardzo małe ciężary prowadzą do bardzo małych gradientów i mogą powodować, że sieć zajmuje dużo, dużo dłużej szkolenie lub nigdy się nie kończy.
s qr t ( d)re[ - 1re√, 1re√]