Matematyczna / algorytmiczna definicja nadmiernego dopasowania

18

Czy istnieje matematyczna lub algorytmiczna definicja nadmiernego dopasowania?

Często podawanymi definicjami są klasyczny dwuwymiarowy wykres punktów z linią przechodzącą przez każdy punkt, a krzywa utraty walidacji nagle rośnie.

Ale czy istnieje matematycznie rygorystyczna definicja?

Brian Ko
źródło

Odpowiedzi:

22

Tak, istnieje (nieco bardziej) rygorystyczna definicja:

Biorąc pod uwagę model z zestawem parametrów, można powiedzieć, że model przepełnia dane, jeśli po pewnej liczbie kroków treningowych błąd szkolenia nadal maleje, podczas gdy błąd próby (testu) zaczyna się zwiększać.

wprowadź opis zdjęcia tutaj W tym przykładzie błąd poza próbą (test / walidacja) najpierw maleje w synchronizacji z błędem pociągu, a następnie zaczyna rosnąć około 90. epoki, czyli kiedy zaczyna się przeładowanie

Innym sposobem na spojrzenie na to jest pod względem stronniczości i wariancji. Błąd braku próby dla modelu można rozłożyć na dwa składniki:

  • Odchylenie: Błąd ze względu na to, że oczekiwana wartość z oszacowanego modelu różni się od oczekiwanej wartości prawdziwego modelu.
  • Wariancja: błąd związany z wrażliwością modelu na niewielkie wahania w zestawie danych.

Przeregulowanie występuje, gdy stronniczość jest niska, ale wariancja jest wysoka. Dla zbioru danych którym prawdziwym (nieznanym) modelem jest:X

Y=f(X)+ϵ - jest nieredukowalnym szumem w zbiorze danych, przy czym i , ϵE(ϵ)=0Var(ϵ)=σϵ

a model szacowany to:

Y^=f^(X) ,

wówczas błąd testu (dla punktu danych testowych ) można zapisać jako:xt

Err(xt)=σϵ+Bias2+Variance

z i Bias2=E[f(xt)f^(xt)]2Variance=E[f^(xt)E[f^(xt)]]2

(Ściśle mówiąc, ten rozkład ma zastosowanie w przypadku regresji, ale podobny rozkład działa dla każdej funkcji straty, tj. Również w przypadku klasyfikacji).

Obie powyższe definicje są powiązane ze złożonością modelu (mierzoną liczbą parametrów w modelu): im wyższa złożoność modelu, tym większe prawdopodobieństwo wystąpienia nadmiernego dopasowania.

Patrz rozdział 7 elementów Statystycznego Learning rygorystyczną matematycznego traktowania tematu.

wprowadź opis zdjęcia tutaj Odchylenie odchylenia wstępnego i wariancja (tj. Nadmierne dopasowanie) rosną wraz ze złożonością modelu. Zaczerpnięte z ESL, rozdział 7

Skander H. - Przywróć Monikę
źródło
1
Czy możliwe jest zmniejszenie zarówno błędu szkolenia, jak i błędu testu, ale model nadal jest przeregulowany? Moim zdaniem rozbieżność błędu treningu i błędu w testach świadczy o nadmiernym dopasowaniu, ale nadmierne dopasowanie niekoniecznie pociąga za sobą rozbieżność. Na przykład NN, który uczy się odróżniać przestępców od osób niebędących przestępcami, rozpoznając białe tło zdjęć więziennych, jest zbyt dobry, ale błędy w szkoleniu i testach prawdopodobnie nie są rozbieżne.
po
@yters w tym przypadku, nie sądzę, że istniałby jakikolwiek sposób pomiaru występującego nadmiernego dopasowania. Wszystko, co masz dostęp, to szkolenie i testowanie danych, a jeśli oba zestawy danych wykazują tę samą funkcję, z której korzysta NN (białe tło), jest to po prostu ważna funkcja, z której należy skorzystać, a niekoniecznie nadmiernie. Jeśli nie chcesz tej funkcji, musisz dołączyć jej odmiany do swoich zbiorów danych.
Calvin Godfrey
1
@yters twoim przykładem jest to, co uważam za „nadmierne dopasowanie społeczne”: matematycznie model nie jest zbyt mocny, ale istnieją pewne zewnętrzne względy społeczne, które prowadzą do tego, że predyktor nie działa dobrze. Bardziej interesującym przykładem są niektóre zawody Kaggle i różne otwarte zbiory danych, takie jak Boston Housing, MNIST itp. ... sam model może nie być zbyt dobry (pod względem stronniczości, wariancji itp.), Ale jest wiele wiedza na temat problemu w społeczności (wyniki z poprzednich zespołów i artykułów naukowych, publicznie udostępniane jądra itp.), które prowadzą do przeregulowania.
Skander H. - Przywróć Monikę
1
@yters (ciąg dalszy) dlatego teoretycznie oddzielny zestaw danych walidacyjnych (oprócz zestawu danych testowych) powinien pozostać w „skarbcu” i nie powinien być używany do ostatecznej walidacji.
Skander H. - Przywróć Monikę
1
@ CalvinGodfrey jest bardziej technicznym przykładem. Załóżmy, że mam binarny zestaw danych klasyfikacyjnych, który jest równomiernie podzielony między dwie klasy, a następnie dodaj szum do klasyfikacji z dość niezrównoważonego rozkładu Bernoulliego, aby zestaw danych został przechylony w kierunku jednej z klas. Podzieliłem zestaw danych na pociąg i test i osiągnąłem wysoką dokładność w obu przypadkach, częściowo z powodu niezrównoważonego rozkładu. Jednak dokładność modelu nie jest tak wysoka w prawdziwej klasyfikacji zestawu danych, ponieważ model nauczył się wypaczonego rozkładu Bernoulliego.
po