Czy błąd średniej kwadratowej jest zawsze wypukły w kontekście sieci neuronowych?

9

Wiele zasobów, o których wspomniałem, wspomina, że ​​MSE jest świetny, ponieważ jest wypukły. Ale nie rozumiem jak, szczególnie w kontekście sieci neuronowych.

Powiedzmy, że mamy następujące elementy:

  • X: zestaw danych szkoleniowych
  • Y: cele
  • Θ: zestaw parametrów modelu fΘ (model sieci neuronowej z nieliniowościami)

Następnie:

MSE(Θ)=(fΘ(X)Y)2

Dlaczego funkcja utraty zawsze miałaby być wypukła? Czy to zależy odfΘ(X)?

użytkownik74211
źródło

Odpowiedzi:

1

Odpowiedź w skrócie: MSE sam jest wypukły na wejściu i parametrach. Ale w dowolnej sieci neuronowej nie zawsze jest ona wypukła z powodu obecności nieliniowości w postaci funkcji aktywacyjnych. Źródło mojej odpowiedzi jest tutaj .

warszawa
źródło
1

Wypukłość

Funkcja f(x) z xΧ jest wypukły, jeśli w ogóle x1Χ, x2Χ i dla każdego 0λ1,

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

Można udowodnić, że takie wypukłe f(x)ma jedno globalne minimum. Unikalne globalne minimum eliminuje pułapki tworzone przez lokalne minima, które mogą wystąpić w algorytmach, które próbują osiągnąć zbieżność na globalnym minimum, takim jak minimalizacja funkcji błędu.

Chociaż funkcja błędu może być w 100% niezawodna we wszystkich ciągłych, liniowych kontekstach i wielu kontekstach nieliniowych, nie oznacza to zbieżności globalnego minimum dla wszystkich możliwych kontekstów nieliniowych.

Średni błąd kwadratowy

Biorąc pod uwagę funkcję s(x) opisujący idealne zachowanie systemu i model systemu a(x,p) (gdzie p to wektor parametru, macierz, sześcian lub hipersześcian i 1nN), utworzonych racjonalnie lub poprzez konwergencję (jak w treningu sieci neuronowej), funkcję błędu średniego kwadratu (MSE) można przedstawić w następujący sposób.

e(β):=N1n[a(xn)s(xn)]2

Materiał, który czytasz, prawdopodobnie tego nie twierdzi a(x,p) lub s(x) są wypukłe w stosunku do x, ale to e(β) jest wypukły w stosunku do a(x,p) i s(x)bez względu na to, jakie są. To późniejsze stwierdzenie można udowodnić dla dowolnej ciągłościa(x,p) i s(x).

Mylący algorytm konwergencji

Jeśli pytanie brzmi, czy konkretny a(x,p) i sposób osiągnięcia s(x) która jest zbliżona do a(x,p)w granicach rozsądnego marginesu konwergencji MSE można pomylić, odpowiedź brzmi „tak”. Dlatego MSE nie jest jedynym modelem błędu.

Podsumowanie

Najlepszym sposobem podsumowania jest to e(β) należy zdefiniować lub wybrać z zestawu podstawowych modeli wypukłych błędów opartych na poniższej wiedzy.

  • Znane właściwości systemu s(x)
  • Definicja modelu aproksymacyjnego a(x,p)
  • Tensor służy do generowania następnego stanu w zbieżnej sekwencji

Zestaw podstawowych modeli wypukłych błędów z pewnością obejmuje model MSE ze względu na jego prostotę i oszczędność obliczeniową.

FauChristian
źródło
Krótka odpowiedź brzmi: MSE wrt Theta jest zawsze wypukła. Chociaż Feedforard (X, Theta), który może nie być wypukły?
user74211,
Cóż, @ user74211, ten komentarz w rzeczywistości nie odpowiada na pytanie. Pytanie konkretnie zadane JAK średni błąd kwadratowy może być zawsze wypukłe, jeśli funkcja, której dotyczy, nie jest. Twój komentarz jest podzbiorem stwierdzeń w pytaniu, bez poszukiwanego wyjaśnienia.
FauChristian