Dlaczego propagacja wsteczna nie działa, gdy inicjujesz całą wagę o tej samej wartości (powiedzmy 0,5), ale działa dobrze, gdy otrzymujesz liczby losowe?
Czy algorytm nie powinien obliczyć błędu i działać stamtąd, mimo że początkowo wagi są takie same?
źródło
Aby dodać do odpowiedzi Thierry'ego, możesz pomyśleć o błędzie jako funkcji wektora ciężaru, tj. Jako funkcji z którą chciałbyś zminimalizować. Algorytm wstecznej propagacji działa, patrząc na lokalne sąsiedztwo punktu i sprawdzając, który kierunek doprowadzi do mniejszego błędu. To da ci lokalne minimum.Rn→ R
To, czego chcesz, to globalne minimum, ale nie masz gwarantowanego sposobu na znalezienie tego. A jeśli twoja powierzchnia ma kilka lokalnych minimów, możesz mieć kłopoty.
Ale jeśli ma tylko kilka, strategia Thierry'ego powinna zadziałać - wielokrotne wyszukiwanie lokalnych minimów, zaczynając od losowo wybranych punktów, powinno zwiększyć szanse na znalezienie globalnego minimum.
I w szczęśliwym przypadku, w którym jest tylko jedno minimum - każdy początkowy wektor ciężaru doprowadzi Cię do tego.
źródło