Dlaczego informacje o danych walidacyjnych wyciekają, jeśli oceniam wydajność modelu na danych walidacyjnych podczas strojenia hiperparametrów?

9

W głębokim nauczaniu François Cholleta w Pythonie napisano:

W rezultacie dostrajanie konfiguracji modelu w oparciu o jego wydajność w zestawie sprawdzania poprawności może szybko doprowadzić do nadmiernego dopasowania do zestawu sprawdzania poprawności, nawet jeśli Twój model nigdy nie jest bezpośrednio na nim szkolony.

Centralnym elementem tego zjawiska jest pojęcie wycieków informacji. Za każdym razem, gdy dostrajasz hiperparametr modelu na podstawie wydajności modelu w zestawie sprawdzania poprawności, niektóre informacje o danych sprawdzania poprawności wyciekają do modelu . Jeśli zrobisz to tylko raz, dla jednego parametru, wycieknie bardzo niewiele bitów informacji , a zestaw walidacyjny pozostanie niezawodny do oceny modelu. Ale jeśli powtórzysz to wiele razy - przeprowadzając jeden eksperyment, oceniając zestaw walidacyjny i modyfikując w rezultacie swój model - wówczas wyciekniesz do modelu coraz większą ilość informacji o zestawie walidacyjnym.

Dlaczego informacje o danych walidacyjnych wyciekają, jeśli oceniam wydajność modelu na danych walidacyjnych podczas strojenia hiperparametrów?

fabiomaia
źródło
BTW: nie zależy to tylko od tego, jak często to robisz, ale także od losowej niepewności oceny wydajności (funkcja docelowa) podczas optymalizacji.
cbeleites niezadowoleni z SX
1
@cbeleites Przepraszamy, co to znaczy?
fabiomaia
1
gdyby wyniki walidacji zastosowane do optymalizacji były idealne (tj. nie błąd systematyczny ani losowy), optymalizacja wybrałaby naprawdę optymalny model, nie miałbyś żadnego przeregulowania, a inna niezależna idealna walidacja wybranego modelu dałaby dokładnie ten sam wynik. Optymalizacja może nawet tolerować błąd systematyczny (stronniczość), o ile nie zmienia się w zależności od czynników, które zmieniają się podczas optymalizacji. Teraz zastanów się, co się stanie, jeśli wystąpi przypadkowy błąd (niepewność wariancji) w oszacowaniu wydajności: masz szum na szczycie prawdziwego „krajobrazu”.
cbeleites niezadowoleni z SX
1
Ten hałas może sprawić, że niektóre punkty (ustawienia hiperparametrów) będą wyglądać lepiej niż są w rzeczywistości, więc te ustawienia hiperparametrów mogą zostać wybrane przypadkowo (i błędnie). Prawdopodobieństwo, że tak się stanie, wzrasta: a) ile razy spojrzysz na takie wartości wydajności ib) ilość hałasu, jaki masz na szczycie prawdziwej wydajności (w porównaniu do prawdziwego wzrostu wydajności). Nie chodzi o to, dlaczego ponowne wykorzystanie wyników walidacji jest wyciekiem danych, ale o to, jak zdarza się odpowiednie nadmierne dopasowanie i jak poważny problem należy się spodziewać - dlatego tylko komentarz.
cbeleites niezadowoleni z SX

Odpowiedzi:

11

Informacje wyciekły, ponieważ używasz danych sprawdzania poprawności do dokonywania wyborów hiperparametrów. Zasadniczo tworzysz skomplikowany problem z optymalizacją: zminimalizuj stratę na hiperparametrach ocenianą na podstawie danych walidacyjnych, gdzie hiperparametry regulują model sieci neuronowej, w której parametry szkolone przy użyciu określonego zestawu szkoleniowego .ϕθ

Mimo że parametry są bezpośrednio informowane przez dane treningowe, hiper-parametry są wybierane na podstawie danych walidacyjnych. Ponadto, ponieważ hiperparametry pośrednio wpływają na , informacje z danych sprawdzania poprawności pośrednio wpływają na wybrany model.θϕϕθ

Sycorax mówi Przywróć Monikę
źródło
1
Z perspektywy czasu było to dość oczywiste. Ale co znaczy „jeśli zrobisz to tylko raz, dla jednego parametru, wtedy wycieknie bardzo niewiele informacji”? Co tam oznacza i jak różni się od drugiego przypadku, w którym „powtarzacie to wiele razy”?
fabiomaia
4
Załóżmy, że próbujesz tylko 2 konfiguracji hiperparametrów, mierząc wydajność w stosunku do danych sprawdzania poprawności i wybierasz najlepszy model. Istnieje mniejsza szansa, że ​​dzięki ślepemu szczęściu udało Ci się zastąpić dane walidacyjne. Dla porównania załóżmy, że próbujesz2)10konfiguracje hiperparametrów i wybierz najlepszy model na podstawie danych sprawdzania poprawności. Istnieje większe ryzyko, że dzięki ślepemu szczęściu udało ci się zastąpić dane walidacyjne. Zobacz także: „ogród ścieżek rozwidlenia” i odkrycie fałszywych efektów.
Sycorax mówi Przywróć Monikę
1
To ma sens. Treść oryginalnej książki nie była najlepsza. Dziękuję Ci!
fabiomaia
Sformułowanie w książce jest doskonałe.
Michael M,
2
Może ci się to wydawać „doskonałe”, ponieważ prawdopodobnie już wiesz, o czym mówi autor. Komentarz @Sycorax był dla mnie o wiele bardziej wyraźny i pomocny.
fabiomaia