Jaki wpływ ma zwiększenie danych treningowych na ogólną dokładność systemu?

16

Czy ktoś może podsumować dla mnie możliwe przykłady, w jakich sytuacjach zwiększenie danych treningowych poprawia cały system? Kiedy wykrywamy, że dodanie większej ilości danych treningowych może nadmiernie dopasować dane i nie dać dokładności danych testowych?

To bardzo niespecyficzne pytanie, ale jeśli chcesz odpowiedzieć na konkretne pytanie w konkretnej sytuacji, zrób to.

madCode
źródło
tylko się zastanawiam - czy chodzi o to, czy podział 50-50 na pociąg / test jest lepszy niż powiedzmy 75-25?
probabilityislogic

Odpowiedzi:

22

n=4

To powiedziawszy, jedna sytuacja, w której więcej danych nie pomaga --- a może nawet boli --- jest, jeśli twoje dodatkowe dane treningowe są hałaśliwe lub nie pasują do tego, co próbujesz przewidzieć. Kiedyś przeprowadziłem eksperyment, w którym podłączyłem różne modele językowe [*] do aktywowanego głosem systemu rezerwacji restauracji. Zróżnicowałem ilość danych treningowych, a także ich znaczenie: z jednej strony miałem niewielką, starannie wyselekcjonowaną kolekcję stolików rezerwacyjnych, co idealnie pasowało do mojej aplikacji. Z drugiej strony miałem model oszacowany na podstawie ogromnego zbioru klasycznej literatury, dokładniejszy model językowy, ale znacznie gorszy w porównaniu do aplikacji. Ku mojemu zdziwieniu, mały, ale istotny model znacznie przewyższał duży, ale mniej istotny model.


Zaskakująca sytuacja, zwana podwójnym zejściem , występuje również, gdy rozmiar zestawu treningowego jest zbliżony do liczby parametrów modelu. W takich przypadkach ryzyko testu najpierw maleje wraz ze wzrostem wielkości zestawu treningowego, przejściowo wzrasta gdy dodaje się nieco więcej danych treningowych, a na koniec zaczyna się ponownie zmniejszać w miarę wzrostu zestawu treningowego. Zjawisko to opisano 25 lat w literaturze dotyczącej sieci neuronowych (patrz Opper, 1995), ale występuje również w nowoczesnych sieciach ( Advani i Saxe, 2017 ). Co ciekawe, dzieje się tak nawet w przypadku regresji liniowej, choć w jednym dopasowaniu według SGD ( Nakkiran, 2019). Zjawisko to nie jest jeszcze w pełni zrozumiałe i jest w dużej mierze przedmiotem zainteresowania teoretycznego: z pewnością nie użyłbym tego jako powodu, aby nie zbierać więcej danych (chociaż mógłbym majstrować przy rozmiarze zestawu treningowego, gdyby n == p, a wydajność była nieoczekiwanie słaba ).


P.(wn='szybki', wn+1='brązowy', wn+2)='lis')


Matt Krause
źródło
12

Jedna uwaga: dodając więcej danych (wierszy lub przykładów, a nie kolumn lub elementów), Twoje szanse na przeregulowanie zmniejszają się, a nie zwiększają.

Podsumowanie dwóch akapitów wygląda następująco:

  • Dodanie kolejnych przykładów dodaje różnorodności. Zmniejsza to błąd generalizacji, ponieważ model staje się bardziej ogólny dzięki szkoleniu na większej liczbie przykładów.
  • Dodanie większej liczby elementów wejściowych lub kolumn (do ustalonej liczby przykładów) może zwiększyć przeszacowanie, ponieważ więcej funkcji może być nieistotnych lub zbędnych, a ponadto istnieje większa możliwość skomplikowania modelu w celu dopasowania do podanych przykładów.

Istnieje kilka uproszczonych kryteriów porównywania jakości modeli. Spójrz na przykład na AIC lub na BIC .

Oba pokazują, że dodanie większej ilości danych zawsze poprawia modele, a dodanie złożoności parametrów powyżej wartości optymalnej obniża jakość modelu.

arielf
źródło
1

Zwiększenie danych treningowych zawsze dodaje informacji i powinno poprawić dopasowanie. Trudność pojawia się, jeśli następnie ocenisz wyniki klasyfikatora tylko na podstawie danych treningowych użytych do dopasowania. Daje to optymistycznie tendencyjne oceny i jest to powód, dla którego zamiast tego stosuje się krzyżową weryfikację pomijalną lub bootstrap.

Michael R. Chernick
źródło
1

Idealnie, gdy będziesz mieć więcej przykładów treningowych, będziesz mieć mniejszy błąd testu (zmniejszenie wariancji modelu, co oznacza, że ​​jesteśmy mniej przeregulowani), ale teoretycznie więcej danych nie zawsze oznacza, że ​​będziesz mieć dokładniejszy model, ponieważ modele o dużym odchyleniu nie skorzysta z większej liczby przykładów szkoleń .

Zobacz tutaj: w uczeniu maszynowym, co jest lepsze: więcej danych lub lepsze algorytmy

Duża wariancja - model dobrze reprezentujący zestaw treningowy, ale zagrożony nadmiernym dopasowaniem do hałaśliwych lub niereprezentatywnych danych treningowych.

Wysoka stronniczość - prostszy model, który nie ma tendencji do nadmiernego dopasowania, ale może niedostatecznie dopasować dane treningowe, nie rejestrując ważnych prawidłowości.

Serendipity
źródło
-1

Analiza widma pomoże w analizie różnorodności próbki, w rzeczywistości fałszywe informacje zostaną wyuczone w modelowaniu, jeśli nie zostaną dodane „próbki rzeczywiste”, które zwykle nazywane są nadmiernym dopasowaniem. Zwykle, jeśli dostarczona informacja według próbki jest mniejsza, zachęca się do dostarczenia bardziej rzeczywistej próbki, aby zapewnić, że użyteczne informacje mogą być wykorzystane w testach. Powodzenia!

użytkownik162580
źródło
3
Trudno jest zrozumieć tę odpowiedź. Czy to może być przetłumaczone maszynowo z innego języka? Czy byłby jakiś sposób na sprawdzenie i edytowanie go, aby zawierał pomysły, którymi chcesz się z nami podzielić?
whuber
Nie rozumiem twojej odpowiedzi.
user162580
3
Wygląda na to, że mamy problem z językiem: słowa, które opublikowałeś, nie mają sensu w języku angielskim. Czy możesz je zmienić, aby miały sens?
whuber