Niech dane to . Napisz dla rozkładu empirycznego. Definicji dla każdej funkcji ,x=(x1,…,xn)F(x)f
EF(x)[f(X)]=1n∑i=1nf(xi).
Niech model ma gęstość gdzie jest zdefiniowane na podporze modelu. Przekroju entropia z , a jest zdefiniowane jakoMef(x)fF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
Zakładając, że jest prostą próbą losową, jej prawdopodobieństwo dziennika ujemnego wynosix
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
ze względu na właściwości logarytmów (konwertują produkty na sumy). Wyrażenie jest stałym wyrażeniem razy . Ponieważ funkcje strat są wykorzystywane w statystykach tylko poprzez ich porównywanie, nie ma znaczenia, że jedna jest (dodatnią) stałą razy druga. W tym sensie prawdopodobieństwo logarytmu ujemnego „jest” entropią krzyżową w cytacie.(2)n(1)
Potrzeba nieco więcej wyobraźni, aby uzasadnić drugie twierdzenie cytatu. Związek z błędem do kwadratu jest jasny, ponieważ dla „modelu Gaussa”, który przewiduje wartości w punktach , wartość w dowolnym takim punkcie wynosip(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
który jest kwadratem błędu ale przeskalowany o i przesunięty o funkcję . Jednym ze sposobów poprawienia wyceny jest założenie, że częścią „modelu” - musi być jakoś określona niezależnie od danych. W takim przypadku różnice między średnimi błędami do kwadratu są proporcjonalne do różnic między entropiami krzyżowymi lub prawdopodobieństwami logarytmicznymi, tym samym czyniąc wszystkie trzy równoważne dla celów dopasowania modelu.(x−p(x))2 1/(2σ2)σσσ
(Zwykle jednak nadaje się jako część procesu modelowania, w którym to przypadku cytat nie byłby całkiem poprawny.)σ=σ(x)
Dla czytelników książki Deep Learning chciałbym dodać do doskonale przyjętej odpowiedzi, którą autorzy szczegółowo wyjaśniają w swoich wypowiedziach w rozdziale 5.5.1, a mianowicie przykład: regresja liniowa jako maksymalne prawdopodobieństwo .
Podają tam dokładnie ograniczenie wymienione w zaakceptowanej odpowiedzi:
Następnie pokazują, że minimalizacja MSE odpowiada oszacowaniu maksymalnego prawdopodobieństwa, a tym samym minimalizacji entropii krzyżowej między rozkładem empirycznym a .p(y|x)
źródło