I rozumie, że dany zestaw niezależnych obserwacji największej wiarygodności Estymator (lub równoważnie MAP o płaskich / jednolity wcześniej), który identyfikuje Parametry \ mathbf {θ} , które wytwarzają model dystrybucji p_ {wzór} \ left (\, \ cdot \,; \ mathbf {θ} \ right) najlepiej pasujące do tych obserwacji
lub wygodniej
i zobacz rolę, jaką może odgrywać w definiowaniu funkcji utraty dla wieloklasowych głębokich sieci neuronowych, w której odpowiada parametrom sieci możliwym do wyszkolenia (np. obserwacje to pary aktywacji wejściowych i odpowiadające im prawidłowe etykiety klas , = { }, biorąc
Nie rozumiem, w jaki sposób odnosi się to do tak zwanej „entropii krzyżowej” (wektoryzowanego) prawidłowego wyjścia, , i odpowiednich aktywacji wyjściowych sieci, , które są stosowane w praktyce, gdy błąd pomiaru / straty podczas treningu . Istnieje kilka powiązanych problemów: a ( x ( i ) ; θ )H( o ( i ) ; θ )=- y ( i ) ⋅ l o g
Aktywacje „jako prawdopodobieństwa”
Jednym z kroków w ustalaniu związku między MLE a entropią krzyżową jest użycie aktywacji wyjściowych „tak jakby” były prawdopodobieństwami. Ale nie jest dla mnie jasne, że tak jest, a przynajmniej że są.
Przy obliczaniu błędu szkolenia - w szczególności nazywając go „stratą z entropii krzyżowej” - zakłada się, że (po normalizacji aktywacji sumuje się do 1)
lub
abyśmy mogli pisać
a zatem
Ale choć z pewnością sprawia to, że prawdopodobieństwo (o ile cokolwiek jest), to jednak nie nakłada żadnych ograniczeń na inne aktywacje.
Czy naprawdę można powiedzieć, że to PMF? Czy jest coś, co sprawia, że w rzeczywistości nie jest prawdopodobieństwem (a jedynie „polubieniem” ich )? a y ( i ) ( x ( i ) ; θ M L )
Ograniczenie do kategoryzacji
Kluczowy krok powyżej w zrównaniu MLE z entropią krzyżową opiera się całkowicie na strukturze „one-hot” z która charakteryzuje (jednoznakowy) problem uczenia się w wielu klasach. Każda inna struktura dla uniemożliwiłaby przejście z do .y ( i ) (1) (3)
Czy równanie MLE i minimalizacji krzyżowej entropii jest ograniczone do przypadków, w których są „one-hot”?
Różne prawdopodobieństwa szkolenia i prognozowania
Podczas przewidywania prawie zawsze tak jest
co skutkuje poprawnymi prawdopodobieństwami przewidywania, które różnią się od prawdopodobieństw wyuczonych podczas szkolenia, chyba że jest to wiarygodne
Czy tak jest zawsze w niezawodny sposób? Czy to jest przynajmniej w przybliżeniu prawda? Czy jest jakiś inny argument, który uzasadnia to równanie wartości wyuczonej aktywacji w pozycji etykiety z prawdopodobieństwem, że występuje tam maksymalna wartość wyuczonej aktywacji?
Entropia i teoria informacji
Nawet zakładając, że powyższe obawy zostały rozwiązane, a aktywacje są poprawnymi PMF (lub można je w znaczący sposób traktować jako takie), więc rola odgrywana przez entropię krzyżową w obliczeniach jest bezproblemowa, nie jest jasne, że ja, dlaczego rozmowa o entropii jest pomocna lub znacząca , skoro entropia Shanona dotyczy określonego rodzaj kodowania , którego nie używa się do szkolenia sieci. a( x ( i ) ; θ M L )
Jaką rolę odgrywa entropia teorii informacji w interpretacji funkcji kosztu, w przeciwieństwie do zwykłego dostarczenia narzędzia (w postaci entropii krzyżowej) do obliczenia (odpowiadającego MLE)?
softmax_cross_entropy_with_logits
: obliczają a zatem który definiuje sieć „zaprojektowaną” do generowania prawdopodobieństw (przynajmniej w miejscu etykiety). Nie? θ M L ( O )Odpowiem z nieco bardziej ogólnej perspektywy, dotyczącej natury tego, jak, kiedy i dlaczego możemy uznać dane wyjściowe NN za rozkłady prawdopodobieństwa.
W tym sensie, że softmax wymusza sumowanie wartości wyjściowych do 1, a także jest nieujemny, wynik sieci jest dyskretnym rozkładem prawdopodobieństwa między klasami lub przynajmniej może być interpretowany jako taki. Dlatego całkowicie uzasadnione jest mówienie o entropiach krzyżowych i maksymalnych prawdopodobieństwach.
Jednak to, co myślę, że widzisz (i jest poprawne), to to, że wyjściowe „prawdopodobieństwa” mogą nie mieć nic wspólnego z rzeczywistym prawdopodobieństwem poprawności . Jest to dobrze znany problem w ML, zwany kalibracją . Na przykład, jeśli twój klasyfikator psów i kotów mówi , to można się spodziewać, że jeśli weźmiesz zestaw przykładów z których wszystkie miały , wówczas około 30% danych wejściowych zostałoby błędnie zaklasyfikowanych (ponieważ było to tylko 70% pewności).fθ D C fθ(xi,C)=P(xi=C|θ)=0.7 S={xj} P(xj=C|θ)=0.7
Okazuje się jednak, że nowoczesne metody treningowe wcale tego nie egzekwują! Zobacz Guo i in., On the Calibration of Modern Neural Networks, aby zobaczyć trochę dyskusji na ten temat.
Innymi słowy, „prawdopodobieństwo” wyjścia z softmax może nie mieć nic wspólnego z faktyczną pewnością modelu. I nie jest to zaskoczeniem: chcemy po prostu zmaksymalizować naszą dokładność, a każdy przykład danych wejściowych ma prawdopodobieństwo 1 jako swojej klasy docelowej. Model ten nie zachęca w niewielkim stopniu do osiągnięcia tego celu. Jeśli nie trzeba szacować niepewności, to dlaczego? Cross-entropia nie rozwiązuje tego problemu; w rzeczy samej, mówisz mu, żeby za każdym razem przechodził do funkcji delta!
Wiele ostatnich prac nad bayesowskimi sieciami neuronowymi dąży do rozwiązania tego problemu. Takie modele wykorzystują rozkład parametrów, biorąc pod uwagę dane , które można zintegrować w celu uzyskania rzeczywistego rozkładu prawdopodobieństwa . Pomaga to zagwarantować użyteczne pomiary niepewności i lepszą kalibrację. Jest to jednak bardziej problematyczne obliczeniowo.P ( y i | x i , X ) = ∫ P ( y i | θ , x i ) P ( θ | X )P(θ|X)=P(X|θ)P(θ)/P(X) P(yi|xi,X)=∫P(yi|θ,xi)P(θ|X)dθ
Mam nadzieję, że nie zrozumiałem źle twojego pytania!
źródło
Sieci neuronowe ze sprzężeniem zwrotnym przybliżają prawdziwe prawdopodobieństwa klasowe, jeśli są odpowiednio trenowane.
W 1991 r. Richard i Lippmann udowodnili, że sieci neuronowe ze sprzężeniem zwrotnym zbliżają się do prawdopodobieństw klasy tylnej, gdy są szkolone z wzorcami docelowymi wskaźnika klasy {0,1} [ Richard MD i Lippmann RP (1991). Klasyfikatory sieci neuronowych szacują prawdopodobieństwo bayesowskie a posteriori. Neural Computation, 3, 461– 483. ]. W swojej linii dowodowej wykorzystują sieci neuronowe z jedną ukrytą warstwą.
W adnotacji matematycznej Dudy i Harta [ Duda RO & Hart PE (1973) Klasyfikacja wzorców i analiza scen, Wiley ], zdefiniuj rozkłady cech dostarczone jako wektor wejściowy do sieci neuronowej ze sprzężeniem zwrotnym jako , gdzie na przykład wektor danych jest równy , dla zadania klasyfikacji z 4 zmiennymi cech. Indeks wskazuje możliwe klas, .x = ( 0,2 , 10,2 , 0 , 2 ) i n i ∈ { 1 , … , n }P(x∣ωi) x=(0.2,10.2,0,2) i n i∈{1,…,n}
Klasyfikator sieci neuronowej ze uczy się tylnych prawdopodobieństw, , gdy jest trenowany przez spadek gradientu. Żądane wymagania wzór wyjściowy dla przykładu być , do problemu klasyfikacji, dwie klasy. Sieć neuronowa ze sprzężeniem zwrotnym ma jeden węzeł wyjściowy na klasę. Wektor wskazuje, że obserwowany wektor cech należy do drugiej klasy. o =(0,1)(0,1)P^(ωi∣x) o=(0,1) (0,1)
źródło
Prawdopodobieństwo dziennika nie jest bezpośrednio powiązane z entropią w kontekście twojego pytania. Podobieństwo jest powierzchowne: oba mają sumy logarytmów wielkości podobnych do prawdopodobieństwa.
Logarytm w logarytmie prawdopodobieństwa (MLE) jest wykonywany wyłącznie ze względów numerycznych. Iloczyn prawdopodobieństwa może być bardzo małą liczbą, szczególnie jeśli próbka jest duża. Wówczas zakres prawdopodobieństwa zmienia się od 1 do znikomo małej wartości produktu. Po otrzymaniu dziennika produkt staje się sumą, a funkcja dziennika kompresuje zakres wartości do mniejszej, łatwiejszej do zarządzania domeny. Logarytm jest funkcją monotonna, więc maksimum (min) logarytmu prawdopodobieństwa da tę samą odpowiedź samego prawdopodobieństwa. Zatem obecność logu w wyrażeniu MLE nie jest ważna w sensie matematycznym i jest po prostu kwestią wygody.
Obecność funkcji logarytmicznej w entropii jest bardziej znacząca i ma swoje korzenie w mechanice statystycznej, gałęzi fizyki. Jest to związane z rozkładem Boltzmanna , który jest wykorzystywany w teorii gazów. Możesz na przykład wyliczyć ciśnienie powietrza jako funkcję wysokości.
źródło