Dlaczego średni błąd kwadratowy jest entropią krzyżową między rozkładem empirycznym a modelem Gaussa?

28

W 5.5, Deep Learning (autor: Ian Goodfellow, Yoshua Bengio i Aaron Courville) stwierdza, że

Każda strata polegająca na ujemnym logarytmicznym prawdopodobieństwie jest entropią krzyżową między rozkładem empirycznym określonym przez zestaw szkoleniowy a rozkładem prawdopodobieństwa określonym przez model. Na przykład średni błąd kwadratu jest entropią krzyżową między rozkładem empirycznym a modelem Gaussa.

Nie rozumiem, dlaczego są one równoważne, a autorzy nie zajmują się tym tematem.

Mufei Li
źródło

Odpowiedzi:

32

Niech dane to . Napisz dla rozkładu empirycznego. Definicji dla każdej funkcji ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Niech model ma gęstość gdzie jest zdefiniowane na podporze modelu. Przekroju entropia z , a jest zdefiniowane jakoMef(x)fF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

Zakładając, że jest prostą próbą losową, jej prawdopodobieństwo dziennika ujemnego wynosix

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

ze względu na właściwości logarytmów (konwertują produkty na sumy). Wyrażenie jest stałym wyrażeniem razy . Ponieważ funkcje strat są wykorzystywane w statystykach tylko poprzez ich porównywanie, nie ma znaczenia, że ​​jedna jest (dodatnią) stałą razy druga. W tym sensie prawdopodobieństwo logarytmu ujemnego „jest” entropią krzyżową w cytacie.(2)n(1)


Potrzeba nieco więcej wyobraźni, aby uzasadnić drugie twierdzenie cytatu. Związek z błędem do kwadratu jest jasny, ponieważ dla „modelu Gaussa”, który przewiduje wartości w punktach , wartość w dowolnym takim punkcie wynosip(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

który jest kwadratem błędu ale przeskalowany o i przesunięty o funkcję . Jednym ze sposobów poprawienia wyceny jest założenie, że częścią „modelu” - musi być jakoś określona niezależnie od danych. W takim przypadku różnice między średnimi błędami do kwadratu są proporcjonalne do różnic między entropiami krzyżowymi lub prawdopodobieństwami logarytmicznymi, tym samym czyniąc wszystkie trzy równoważne dla celów dopasowania modelu.(xp(x))2 1/(2σ2)σσσ

(Zwykle jednak nadaje się jako część procesu modelowania, w którym to przypadku cytat nie byłby całkiem poprawny.)σ=σ(x)

Whuber
źródło
1
+1 z dwiema sugestiami - można użyć zamiast aby uniknąć pomyłki z . Drugi to większość szacunków będzie . Po podłączeniu i dodaniu go otrzymujesz . Podobne do formuły typu AIC ...g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
prawdopodobieństwo jest
@probabilityislogic wybrać parę i , ponieważ nie stanowią ściśle związane ilości. Ff
whuber
Cześć, myślę, że dotyczy to tylko rozkładu liniowego. W przypadku problemów z nieliniową dystrybucją myślę, że nadal możemy używać MSE jako funkcji kosztów, prawda?
Lion Lai
5

Dla czytelników książki Deep Learning chciałbym dodać do doskonale przyjętej odpowiedzi, którą autorzy szczegółowo wyjaśniają w swoich wypowiedziach w rozdziale 5.5.1, a mianowicie przykład: regresja liniowa jako maksymalne prawdopodobieństwo .

Podają tam dokładnie ograniczenie wymienione w zaakceptowanej odpowiedzi:

p(y|x)=N(y;y^(x;w),σ2) . Funkcja daje prognozę średniej Gaussa. W tym przykładzie zakładamy, że wariancja jest ustalona na pewną stałą wybraną przez użytkownika.y^(x;w)σ2

Następnie pokazują, że minimalizacja MSE odpowiada oszacowaniu maksymalnego prawdopodobieństwa, a tym samym minimalizacji entropii krzyżowej między rozkładem empirycznym a .p(y|x)

Kilian Batzner
źródło