Czy ktoś może podsumować dla mnie możliwe przykłady, w jakich sytuacjach zwiększenie danych treningowych poprawia cały system? Kiedy wykrywamy, że dodanie większej ilości danych treningowych może nadmiernie dopasować dane i nie dać dokładności danych testowych?
To bardzo niespecyficzne pytanie, ale jeśli chcesz odpowiedzieć na konkretne pytanie w konkretnej sytuacji, zrób to.
Odpowiedzi:
To powiedziawszy, jedna sytuacja, w której więcej danych nie pomaga --- a może nawet boli --- jest, jeśli twoje dodatkowe dane treningowe są hałaśliwe lub nie pasują do tego, co próbujesz przewidzieć. Kiedyś przeprowadziłem eksperyment, w którym podłączyłem różne modele językowe [*] do aktywowanego głosem systemu rezerwacji restauracji. Zróżnicowałem ilość danych treningowych, a także ich znaczenie: z jednej strony miałem niewielką, starannie wyselekcjonowaną kolekcję stolików rezerwacyjnych, co idealnie pasowało do mojej aplikacji. Z drugiej strony miałem model oszacowany na podstawie ogromnego zbioru klasycznej literatury, dokładniejszy model językowy, ale znacznie gorszy w porównaniu do aplikacji. Ku mojemu zdziwieniu, mały, ale istotny model znacznie przewyższał duży, ale mniej istotny model.
Zaskakująca sytuacja, zwana podwójnym zejściem , występuje również, gdy rozmiar zestawu treningowego jest zbliżony do liczby parametrów modelu. W takich przypadkach ryzyko testu najpierw maleje wraz ze wzrostem wielkości zestawu treningowego, przejściowo wzrasta gdy dodaje się nieco więcej danych treningowych, a na koniec zaczyna się ponownie zmniejszać w miarę wzrostu zestawu treningowego. Zjawisko to opisano 25 lat w literaturze dotyczącej sieci neuronowych (patrz Opper, 1995), ale występuje również w nowoczesnych sieciach ( Advani i Saxe, 2017 ). Co ciekawe, dzieje się tak nawet w przypadku regresji liniowej, choć w jednym dopasowaniu według SGD ( Nakkiran, 2019). Zjawisko to nie jest jeszcze w pełni zrozumiałe i jest w dużej mierze przedmiotem zainteresowania teoretycznego: z pewnością nie użyłbym tego jako powodu, aby nie zbierać więcej danych (chociaż mógłbym majstrować przy rozmiarze zestawu treningowego, gdyby n == p, a wydajność była nieoczekiwanie słaba ).
źródło
Jedna uwaga: dodając więcej danych (wierszy lub przykładów, a nie kolumn lub elementów), Twoje szanse na przeregulowanie zmniejszają się, a nie zwiększają.
Podsumowanie dwóch akapitów wygląda następująco:
Istnieje kilka uproszczonych kryteriów porównywania jakości modeli. Spójrz na przykład na AIC lub na BIC .
Oba pokazują, że dodanie większej ilości danych zawsze poprawia modele, a dodanie złożoności parametrów powyżej wartości optymalnej obniża jakość modelu.
źródło
Zwiększenie danych treningowych zawsze dodaje informacji i powinno poprawić dopasowanie. Trudność pojawia się, jeśli następnie ocenisz wyniki klasyfikatora tylko na podstawie danych treningowych użytych do dopasowania. Daje to optymistycznie tendencyjne oceny i jest to powód, dla którego zamiast tego stosuje się krzyżową weryfikację pomijalną lub bootstrap.
źródło
Idealnie, gdy będziesz mieć więcej przykładów treningowych, będziesz mieć mniejszy błąd testu (zmniejszenie wariancji modelu, co oznacza, że jesteśmy mniej przeregulowani), ale teoretycznie więcej danych nie zawsze oznacza, że będziesz mieć dokładniejszy model, ponieważ modele o dużym odchyleniu nie skorzysta z większej liczby przykładów szkoleń .
Zobacz tutaj: w uczeniu maszynowym, co jest lepsze: więcej danych lub lepsze algorytmy
Duża wariancja - model dobrze reprezentujący zestaw treningowy, ale zagrożony nadmiernym dopasowaniem do hałaśliwych lub niereprezentatywnych danych treningowych.
Wysoka stronniczość - prostszy model, który nie ma tendencji do nadmiernego dopasowania, ale może niedostatecznie dopasować dane treningowe, nie rejestrując ważnych prawidłowości.
źródło
Analiza widma pomoże w analizie różnorodności próbki, w rzeczywistości fałszywe informacje zostaną wyuczone w modelowaniu, jeśli nie zostaną dodane „próbki rzeczywiste”, które zwykle nazywane są nadmiernym dopasowaniem. Zwykle, jeśli dostarczona informacja według próbki jest mniejsza, zachęca się do dostarczenia bardziej rzeczywistej próbki, aby zapewnić, że użyteczne informacje mogą być wykorzystane w testach. Powodzenia!
źródło