Pytanie może brzmieć nieco dziwnie, ponieważ jestem nowy w wnioskowaniu statystycznym i sieciach neuronowych.
Kiedy w problemach z klasyfikacją za pomocą sieci neuronowych mówimy, że chcemy nauczyć się funkcji która odwzorowuje przestrzeń wejściową na przestrzeń wyjściową :
Czy dopasowujemy parametry ( ) do modelowania funkcji nieliniowej czy do modelowania funkcji gęstości prawdopodobieństwa?
Naprawdę nie wiem, jak lepiej napisać pytanie. Przeczytałem kilka razy obie rzeczy (funkcja gęstości prawdopodobieństwa lub funkcja po prostu taka), więc moje zamieszanie.
Zasadniczo sieci neuronowe nie są wykorzystywane do modelowania całkowitej gęstości prawdopodobieństwa. Ich celem jest po prostu modelowanie średniej rozkładu (lub w sytuacji deterministycznej po prostu funkcja nieliniowa). Niemniej jednak bardzo możliwe jest modelowanie całkowitej gęstości prawdopodobieństwa za pomocą sieci neuronowych.
Jednym łatwym sposobem na to jest na przykład w przypadku Gaussa emisja średniej z jednego wyjścia i wariancji z innego wyjścia sieci, a następnie zminimalizowanie jako części proces szkolenia zamiast typowego błędu kwadratu. Jest to procedura największego prawdopodobieństwa dla sieci neuronowej.−logN(y|x;μ,σ)
Gdy trenujesz tę sieć za każdym razem, gdy podłączysz wartość jako dane wejściowe, otrzymasz μ i σ , a następnie możesz podłączyć całą tryplet y , μ , σ do gęstości f ( y | x ) ∼ N ( μ , σ ), aby uzyskać wartość gęstości dla dowolnego y lubisz. Na tym etapie możesz wybrać, który y wartość zostanie zastosowana w oparciu o funkcję strat prawdziwy domeny. Należy pamiętać, że dla μ aktywacja wyjścia powinna być nieograniczona, aby można było emitować -x μ σ y,μ,σ f(y|x)∼N(μ,σ) y y μ do + inf, podczas gdy σ powinno być aktywacją dodatnią.−inf +inf σ
Zasadniczo, chyba że chodzi o funkcję deterministyczną, o którą nam chodzi, standardowy trening straty kwadratowej stosowany w sieciach neuronowych jest właściwie tą samą procedurą, którą opisałem powyżej. Pod kaptur rozkład zakłada domyślnie bez trosce o Ď a jeżeli dokładnie zbadać - l O g N ( Y | x ; μ , σ ) daje ekspresję na kwadrat strat ( Utrata funkcja estymatora największej wiarygodności Gaussa ). W tym scenariuszu zamiast yGaussian σ −logN(y|x;μ,σ) y wartość według twoich upodobań utkniesz w emitowaniu za każdym razem, gdy otrzymasz nową wartość x .μ x
Klasyfikacji wyjście będzie rozkład zamiast G U s s I n , który posiada jeden parametr do emisji. Jak podano w drugiej odpowiedzi, parametr ten wynosi od 0 do 1, więc aktywacja wyjścia powinna być odpowiednio. Może to być funkcja logistyczna lub coś innego, co służy temu samemu celowi.Bernoulli Gaussian 0 1
Bardziej wyrafinowanym podejściem jest Bishop's Mixture Density Networks. Możesz przeczytać o tym w często cytowanym dokumencie tutaj:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf
źródło
Moja odmienna odpowiedź brzmi: w najbardziej imponujących praktycznych zastosowaniach (na przykład w tych, które są najbardziej rozpowszechniane w mediach), nie jest to ani funkcja, ani prawdopodobieństwo. Realizują stochastyczne podejmowanie decyzji.
Na powierzchni wygląda na to, że NN po prostu pasuje do funkcji, ustaw w kolejce uniwersalne odniesienie aproksymacyjne . W niektórych przypadkach, gdy stosowane są pewne funkcje aktywacyjne i określone założenia, takie jak błędy Gaussa lub podczas czytania artykułów w sieci Bayesian, wydaje się, że NN może generować rozkłady prawdopodobieństwa.
To wszystko przy okazji. Celem NN jest modelowanie procesu decyzyjnego. Kiedy samochód jest prowadzony przez AI, jego NN nie próbuje obliczyć prawdopodobieństwa, że ma przed sobą przedmiot, a następnie biorąc pod uwagę, że istnieje obiekt do obliczenia prawdopodobieństwa, że jest to człowiek. Ani też nie oblicza mapowania sygnałów wejściowych czujników na różnego rodzaju obiekty. Nie, NN powinien podjąć decyzję na podstawie wszystkich danych wejściowych, aby skręcić w bok lub kontynuować jazdę. Nie oblicza prawdopodobieństwa, mówi samochodowi, co ma robić.
źródło