Właśnie zacząłem uczyć się o statystykach i modelach. Obecnie rozumiem, że używamy MLE do oszacowania najlepszych parametrów dla modelu. Kiedy jednak próbuję zrozumieć, jak działają sieci neuronowe, wydaje się, że zwykle używają innego podejścia do oszacowania parametrów. Dlaczego nie używamy MLE lub czy w ogóle można korzystać z MLE?
W problemach z klasyfikacją maksymalizacja prawdopodobieństwa jest najczęstszym sposobem trenowania sieci neuronowej (zarówno modele nadzorowane, jak i nienadzorowane).
W praktyce zwykle minimalizujemy ujemne prawdopodobieństwo logarytmu (równoważne MLE). Jedynym ograniczeniem do wykorzystania ujemnego prawdopodobieństwa logarytmicznego jest posiadanie warstwy wyjściowej, którą można interpretować jako rozkład prawdopodobieństwa. Powszechnie stosuje się do tego warstwę wyjściową softmax. Zauważ, że w społeczności sieci neuronowych prawdopodobieństwo logarytmu ujemnego jest czasami określane jako entropia krzyżowa. Terminy regularyzacji można oczywiście dodać (i czasami można je interpretować jako wcześniejsze rozkłady parametrów, w takim przypadku szukamy maksimum a posteriori ( MAP )).
źródło