Niedopasowanie i niedopasowanie

Odpowiedzi:

30

Spróbuję odpowiedzieć w najprostszy sposób. Każdy z tych problemów ma swoje główne źródło:

Nadmierne dopasowanie: dane są zaszumione, co oznacza, że ​​istnieją pewne odchylenia od rzeczywistości (z powodu błędów pomiaru, wpływowo losowych czynników, nieobserwowanych zmiennych i korelacji śmieci), co utrudnia nam dostrzeżenie ich prawdziwej relacji z naszymi czynnikami wyjaśniającymi. Ponadto zazwyczaj nie jest kompletny (nie mamy przykładów wszystkiego).

Na przykład, powiedzmy, że staram się klasyfikować chłopców i dziewczynki na podstawie ich wzrostu, tylko dlatego, że to jedyna informacja, jaką o nich mam. Wszyscy wiemy, że chociaż chłopcy są średnio wyżsi od dziewcząt, istnieje olbrzymi obszar nakładania się, co uniemożliwia idealne rozdzielenie ich tylko za pomocą tej odrobiny informacji. W zależności od gęstości danych, wystarczająco złożony model może być w stanie osiągnąć wyższy wskaźnik sukcesu w tym zadaniu niż jest to teoretycznie możliwe w przypadku szkoleniazestaw danych, ponieważ może rysować granice, które pozwalają niektórym punktom na samodzielne funkcjonowanie. Tak więc, jeśli mamy tylko osobę, która ma 2,04 metra wysokości, a ona jest kobietą, model może narysować małe kółko wokół tego obszaru, co oznacza, że ​​przypadkowa osoba o wysokości 2,04 metra jest najprawdopodobniej kobietą.

Podstawową przyczyną tego wszystkiego jest zbyt duże zaufanie do danych treningowych (w tym przykładzie model mówi, że ponieważ nie ma mężczyzny o wzroście 2,04, jest to możliwe tylko dla kobiet).

Niedopasowanie jest odwrotnym problemem, w którym model nie rozpoznaje prawdziwej złożoności naszych danych (tj. Nieprzypadkowych zmian w naszych danych). Model zakłada, że ​​hałas jest większy, niż jest w rzeczywistości, dlatego używa zbyt uproszczonego kształtu. Jeśli więc zbiór danych zawiera znacznie więcej dziewcząt niż chłopców z jakiegokolwiek powodu, model może po prostu sklasyfikować je wszystkie jak dziewczynki.

W tym przypadku model nie ufał wystarczającym danym i po prostu założył, że wszystkie odchylenia są hałasem (w tym przykładzie model zakłada, że ​​chłopcy po prostu nie istnieją).

Najważniejsze jest to, że napotykamy te problemy, ponieważ:

  • Nie mamy pełnych informacji.
  • Nie wiemy, jak głośne są dane (nie wiemy, jak bardzo powinniśmy im ufać).
  • Nie znamy z góry podstawowej funkcji, która wygenerowała nasze dane, a tym samym optymalnej złożoności modelu.
Luis Da Silva
źródło
2
witamy w CV. ładna odpowiedź, co sprawia, że ​​chcę del del moją odpowiedź ...
Haitao Du
1
Myślę, że część dotycząca „rysowania granic” i „kół” jest nieco myląca ...
Easymode44
Twierdziłbym tylko, że przykład przewidywania wzrostu wysokości między mężczyznami i kobietami jest raczej niedostateczny niż nadmierny.
Digio
6

Przekroczenie ma miejsce, gdy model bardzo dobrze szacuje zmienną, którą modelujesz, na oryginalnych danych, ale nie szacuje się dobrze na nowym zbiorze danych (wstrzymanie, walidacja krzyżowa, prognozowanie itp.). W twoim modelu jest zbyt wiele zmiennych lub estymatorów (zmienne zastępcze itp.), A to powoduje, że model staje się zbyt wrażliwy na szum w oryginalnych danych. W wyniku przeszacowania szumu w oryginalnych danych model słabo przewiduje.

Niedopasowanie ma miejsce, gdy model nie oszacowuje dobrze zmiennej zarówno w oryginalnych, jak i nowych danych. W twoim modelu brakuje niektórych zmiennych, które są niezbędne do lepszego oszacowania i przewidzenia zachowania zmiennej zależnej.

Równoważenie niedostatecznego dopasowania jest trudne, a czasem nie ma wyraźnej linii mety. W modelowaniu szeregów czasowych ekonometrii problem ten rozwiązano całkiem dobrze za pomocą modeli regularyzacji (LASSO, regresja grzbietu, siatka elastyczna), które są opracowane specjalnie w celu zmniejszenia nadmiernego dopasowania poprzez odpowiednie zmniejszenie liczby zmiennych w modelu, zmniejszając wrażliwość współczynników na Twoje dane lub ich kombinację.

Sympa
źródło
5

Być może podczas badań natrafiłeś na następujące równanie:

Error = IrreducibleError + Bias² + Variance.

Dlaczego napotykamy te dwa problemy podczas szkolenia modelu?

Sam problem uczenia się jest w zasadzie kompromisem między stronniczością a wariancją .

Jakie są główne powody niedopasowania i niedopasowania?

Krótko: hałas.

Długi: błąd nieredukowalny : błędy pomiaru / fluktuacje danych, a także część funkcji celu, która nie może być reprezentowana przez model. Ponowne zmierzenie zmiennej docelowej lub zmiana przestrzeni hipotez (tj. Wybranie innego modelu) zmienia ten komponent.

Edycja (w celu połączenia z innymi odpowiedziami): Wydajność modelu, ponieważ złożoność jest zróżnicowana:

.

gdzie errorD jest błędem w całym rozkładzie D (w praktyce szacowany za pomocą zestawów testowych).

Laksan Nathan
źródło
3
Myślę, że powinieneś zdefiniować swoją terminologię. OP nie używa terminów „stronniczość” ani „wariancja” w pytaniu, nie używasz terminów „przeregulowanie” lub „niedopasowanie” w swojej odpowiedzi (z wyjątkiem cytatu pytania). Myślę, że byłaby to znacznie jaśniejsza odpowiedź, jeśli wyjaśnisz związek między tymi terminami.
Gregor
4

Prawie wszystkie problemy statystyczne można określić w następującej formie:

  1. Biorąc pod uwagę dane find co daje .(y,x)ff^y = f ( x )y^=f^(x)

  2. Ustaw ten jak najbliżej „true” , gdzie jest zdefiniowane jakof^ff

y=f(x)+ε

Pokusa polega na tym, aby produkować które są bardzo zbliżone do danych . Ale kiedy nadejdzie nowy punkt danych lub użyjemy danych, które nie zostały użyte do skonstruowania prognozy mogą być dalekie. Dzieje się tak, ponieważ próbujemy wyjaśnić zamiast . Kiedy to robimy, zbaczamy z „prawdziwej” stąd, kiedy pojawia się nowa obserwacja, otrzymujemy złe prognozy. Dzieje się tak, gdy dochodzi do przeuczenia. f^Y Y F εFFy^yf^εff

Z drugiej strony, gdy znajdujemy zawsze pojawia się pytanie, czy może uda nam się uzyskać lepszą która zapewnia lepsze dopasowanie i jest bliska „prawdziwemu” ? Jeśli możemy, to w pierwszym przypadku jesteśmy niedopasowani. f^f~f

Jeśli spojrzysz na problem statystyczny w ten sposób, dopasowanie modelu zawsze stanowi równowagę między niedopasowaniem a nadmiernym dopasowaniem, a każde rozwiązanie jest zawsze kompromisem. Mamy do czynienia z tym problemem, ponieważ nasze dane są przypadkowe i zaszumione.

mpiktas
źródło
2

Jakie są główne powody niedopasowania i niedopasowania?

W przypadku nadmiernego dopasowania model jest zbyt złożony, aby dobrze pasował do danych treningowych. Dla niedopasowania model jest zbyt prosty.

Dlaczego napotykamy te dwa problemy podczas szkolenia modelu?

Trudno wybrać „odpowiedni” model i parametry danych.

Haitao Du
źródło
0

Niedopasowanie i niedopasowanie są w zasadzie nieodpowiednim wyjaśnieniem danych przez hipotetyczny model i mogą być postrzegane jako model nadmiernego wyjaśniania lub niedoświadczania danych. Jest to tworzone przez związek między modelem zastosowanym do wyjaśnienia danych a modelem generującym dane. W naszej próbie wyjaśnienia nie możemy uzyskać dostępu do modelu bazowego, dlatego nasz osąd kieruje się innym czynnikiem: niepewnością lub słupkami błędów.

Kiedy, próbując dopasować całą wariancję, używamy zbyt złożonego modelu, jesteśmy przeregulowani. Jest to tworzone przez nas, mając swobodne panowanie w wyborze modelu i przypisując zbyt duże znaczenie słupkom błędów (lub próbując wyjaśnić całą zmienność, która jest taka sama). Ograniczając się do modelu, który jest zbyt prosty do opisania danych, i nie przypisując wystarczającej wagi do słupków błędów (lub nie wyjaśniając zmienności), jesteśmy niedopasowani.

Jak można uniknąć tych dwóch? Modele oparte na informacjach (nie pochodzące z danych, ale z wcześniejszej wiedzy o problemie) i znaczące niepewności.

pedrofigueira
źródło
0

W skrócie, nadmierne dopasowanie pojawia się jako konsekwencja wzorców, które pojawiają się w zbiorze danych treningowych, ale nie są obecne w całej populacji (pojawiły się pecha). Jeśli używasz prostego modelu (na przykład regresji liniowej), ryzyko nadmiernego dopasowania jest niski, ponieważ liczba możliwych wykrytych wzorów jest niewielka, dlatego też prawdopodobieństwo jednego z tych losowo pokazanych w próbce również nie jest duże. Przykładem tego może być próba zbadania korelacji 1 000 000 zmiennych w populacji na 100-osobowej próbie. Niektóre funkcje mogą losowo przedstawiać ogromną korelację próbek, mimo że są całkowicie od siebie niezależne

Innym powodem nadmiernego dopasowania jest stronnicze pobieranie próbek („fałszywe wzorce próbek” istnieją, ponieważ próbka nie jest tak naprawdę losowa) Na przykład, jeśli chcesz zbadać średnią wielkość pewnego rodzaju grzyba, wychodząc tam i znajdując go w naturze , możesz to przecenić (łatwiej znaleźć większe grzyby)

Z drugiej strony niedopasowanie jest dość prostym zjawiskiem. Może to oznaczać dwie bardzo podstawowe rzeczy: A) Nie mamy wystarczających danych, aby model mógł nauczyć się wzoru populacji lub B) Nasz model nie jest wystarczająco silny, aby to odzwierciedlić.

Przypadek A można znaleźć, jeśli występuje zjawisko takie jak gdzie jest zmienną losową ze średnią 0 i odchyleniem standardowym 1000 oraz rzeczywistą wartością (parametru, który chcesz oszacować) ia 1. Jeśli nie weźmiesz wystarczającej ilości danych, możesz nawet nie być w stanie odróżnić od 0, twierdząc, że y i x są nieskorelowane / niezależne od siebie.y=ax+ϵϵ

B może wystąpić, jeśli twój model jest prosty, na przykład, jeśli i spróbujesz regresji liniowej, cóż ... Powodzenia!y=x2+ϵ

David
źródło
0

Krótka odpowiedź:

Głównym powodem nadmiernego dopasowania jest użycie złożonego modelu, gdy masz mały zestaw treningowy.

Głównym powodem niedopasowania jest użycie zbyt prostego modelu, który nie radzi sobie dobrze na zestawie treningowym.


Główny powód przeregulowania?

  • Modele o dużej pojemności mogą się nakładać, zapamiętując właściwości zestawu treningowego, które nie służą im dobrze w zestawie testowym.

-Deep Learning book, Goodfellow i in.

Celem uczenia maszynowego jest wyszkolenie modelu na zestawie szkoleniowym w nadziei, że będzie on działał równie dobrze na danych testowych. Ale czy uzyskanie dobrej wydajności na zestawie treningowym zawsze przekłada się na dobrą wydajność na zestawie testowym? Nie będzie, ponieważ Twoje dane treningowe są ograniczone . Jeśli masz ograniczone dane, Twój model może znaleźć pewne wzorce, które działają dla tego ograniczonego zestawu treningowego, ale wzorce te nie uogólniają się na inne przypadki (tj. Zestaw testowy). Można to rozwiązać poprzez:

A- Zapewnienie większego zestawu treningowego do modelu, aby zmniejszyć ryzyko posiadania dowolnych wzorców w zestawie treningowym.

B- Używanie prostszego modelu, aby model nie mógł znaleźć tych dowolnych wzorców w zestawie szkoleniowym. Bardziej złożony model będzie w stanie znaleźć bardziej skomplikowane wzorce, więc potrzebujesz więcej danych, aby upewnić się, że zestaw treningowy jest wystarczająco duży, aby nie zawierał dowolnych wzorców.

(np. wyobraź sobie, że chcesz nauczyć model rozpoznawania statków z ciężarówek, a masz 10 zdjęć każdego z nich. Jeśli większość statków na twoich obrazach znajduje się w wodzie, twój model może nauczyć się klasyfikować każde zdjęcie z niebieskim tłem jako statek zamiast uczyć się, jak wygląda statek. Teraz, jeśli miałeś 10 000 zdjęć statków i ciężarówek, Twój zestaw treningowy prawdopodobnie zawiera statki i ciężarówki z różnych środowisk, a Twój model nie może już polegać tylko na niebieskim tle).

Główny powód niedostatecznego wyposażenia?

  • Niedopasowanie występuje, gdy model nie jest w stanie uzyskać wystarczająco niskiej wartości błędu w zestawie szkoleniowym.

  • Modele o niskiej pojemności mogą mieć problemy z dopasowaniem do zestawu treningowego.

-Deep Learning book, Goodfellow i in.

Niedopasowanie występuje, gdy model nie jest wystarczająco dobry, aby nauczyć się zestawu treningowego, co oznacza, że ​​model jest zbyt prosty. Za każdym razem, gdy zaczynamy rozwiązywać problem, chcemy modelu, który przynajmniej jest w stanie uzyskać dobrą wydajność na zestawie treningowym, a następnie zaczynamy myśleć o zmniejszeniu nadmiernego dopasowania. Zasadniczo rozwiązanie niedostatecznego dopasowania jest dość proste: użyj bardziej złożonego modelu.

Soroush
źródło
0

Rozważ przykład, w którym mamy hipotezę / równanie modelu,

y=q*X+c,

gdzie X = lista funkcji, y = etykieta oraz q i c to współczynniki, które musimy ćwiczyć.

Jeśli wymyślimy wartości współczynników takie, że są wystarczająco duże i zaczniemy tłumić wartość cech (tj. X) w takim przypadku, zawsze otrzymujemy stałą wartość y, niezależnie od dowolnej wartości X. Nazywa się to modelem bardzo tendencyjnym lub niedopasowanym.

Rozważ inny złożony przykład hipotezy,

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

Po zidentyfikowaniu najlepszej wartości współczynników możliwe jest, że dla danych treningowych możemy uzyskać minimalną stratę. Tylko dlatego, że stworzyliśmy nasz model tak złożony i ściśle powiązany, że zachowywał się bardzo dobrze z danymi szkoleniowymi. Podczas gdy z niewidzialnymi danymi możemy uzyskać całkiem przeciwne wyniki. Jest to tak zwany model o wysokim wariancie lub overfit.

Odchylony model wymaga większej złożoności przy wyborze modelu, natomiast model wysoce zróżnicowany wymaga spadku złożoności przy wyborze modelu. Technika regularyzacji może nam pomóc w określeniu właściwego poziomu złożoności modelu i dzięki tej technice możemy pokonać oba problemy.

vipin bansal
źródło
Możesz użyć formatowania matematycznego w swojej odpowiedzi. Więcej informacji: math.meta.stackexchange.com/questions/5020/…
Sycorax mówi Przywróć Monikę