Według „Efficient Backprop” LeCun i wsp. (1998) dobrą praktyką jest znormalizowanie wszystkich danych wejściowych, tak aby były one wyśrodkowane wokół 0 i mieściły się w zakresie maksymalnej drugiej pochodnej. Na przykład użylibyśmy [-0,5,0,5] dla funkcji „Tanh”. Ma to pomóc w postępie wstecznej...