Dlaczego nadmierne dopasowanie jest złe?

27

Przebadałem to wiele i mówią, że zbyt złe dopasowanie do uczenia maszynowego jest złe, ale nasze neurony stają się bardzo silne i znajdują najlepsze działania / zmysły, które omijamy lub których unikamy, a ponadto można je zmniejszać / zwiększać od złych / dobry przez złe lub dobre wyzwalacze, co oznacza, że ​​działania będą się poziomować i kończą się najlepszymi (prawymi), bardzo silnymi pewnymi działaniami. Jak to się nie udaje? Wykorzystuje pozytywne i negatywne wyzwalacze zmysłów, aby zmniejszyć / zwiększyć wartość akcji podaną na 44pos. do 22neg.

Przyjazna osoba 44
źródło
4
To pytanie jest znacznie szersze niż tylko uczenie maszynowe, sieci neuronowe itp. Dotyczy przykładów tak prostych, jak dopasowanie wielomianu.
gerrit
7
@ FriendlyPerson44 Po ponownym przeczytaniu pytania myślę, że istnieje poważna rozbieżność między tytułem a pytaniem. Wygląda na to, że pytasz o wady w swojej sztucznej inteligencji ( co jest niejasno wyjaśnione ) - podczas gdy ludzie odpowiadają: „ Dlaczego zbyt źle się
czujesz
3
@DoubleDouble Zgadzam się. Ponadto związek między uczeniem maszynowym a neuronami jest wątpliwy. Uczenie maszynowe nie ma nic wspólnego z „działaniem przypominającym mózg”, symulacją neuronów lub symulacją inteligencji. Wydaje się, że istnieje wiele różnych odpowiedzi, które mogą pomóc OP w tym momencie.
Shaz
2
Powinieneś wyostrzyć swoje pytanie i tytuł. Może: „Dlaczego musimy chronić wirtualny mózg przed nadmiernym dopasowaniem, podczas gdy ludzki mózg działa świetnie bez żadnych środków zapobiegających nadmiernemu dopasowaniu?”
Falco

Odpowiedzi:

44

Najlepsze wytłumaczenie, jakie słyszałem, to:

Kiedy uczysz się uczenia maszynowego, zakładasz, że próbujesz uczyć się na podstawie danych, które podlegają pewnej dystrybucji probabilistycznej.

Oznacza to, że w każdym zestawie danych, z powodu losowości, wystąpi pewien szum : dane będą się losowo zmieniać.

Kiedy się przebrniesz, ostatecznie uczysz się na podstawie hałasu i włączasz go do swojego modelu.

Następnie, gdy nadchodzi czas na przewidywanie na podstawie innych danych, twoja dokładność maleje: hałas przedostał się do twojego modelu, ale był specyficzny dla twoich danych treningowych, więc szkodzi dokładności twojego modelu. Twój model się nie uogólnia: jest zbyt specyficzny dla zestawu danych, który akurat chciałeś trenować.

jmite
źródło
1
„Uczenie się z hałasu” wydaje mi się niejasne. Co dokładnie się dzieje? Czy możesz podać przykład?
Raphael
nawet jeśli Twoje dane są bardzo czyste i nie zawierają wartości odstających (zarówno naturalnych, jak i nienaturalnych), nadal „nadmierne dopasowanie” jest złą praktyką i powinno zostać wyeliminowane z twojego modelu. kiedy twój model jest „wyposażony”, to znaczy, że Twój model nie uogólnił wiedzy ukrytej w danych i nie może przewidzieć żadnych innych punktów danych. Po prostu, gdy dopasujesz swój model, dopasujesz go tylko do zestawu danych dotyczących pociągu / testu.
Aboelnour,
2
@Raphael System zaczyna widzieć hałas w zestawie treningowym jako funkcje. Jeśli następnie uruchomisz sieć na rzeczywistych danych, w których brakuje określonego szumu, skończysz z mniejszym prawdopodobieństwem, ponieważ brakuje funkcji (= uwzględniony hałas).
drake7707
2
@Raphael Co na przykład: mam kolekcję zdjęć z kamery drogowej. Wytrenujmy sieć, która wykrywa, czy w samochodzie są samochody. Po pewnym treningu mam zestaw z samochodami i bez samochodów, świetnie! Zastosujmy siatkę na nowym zestawie, aby wykryć, czy ulica jest pusta bez ludzi i co, dlaczego nie wykrywa mojej pustej ulicy z dużym prawdopodobieństwem? Patrząc wstecz na zestaw próbek i zauważam, że na każdym zdjęciu były osoby w tle obrazów, gdy nie było żadnych samochodów. Z powodu przepełnienia sieci położył nacisk na obecność ludzi
drake7707
1
Rozważ system, w którym szum jest dodawany przez rzut monetą. Na głowach dodajesz 1 do wartości, a na ogonach dodajesz 0. Aby wyniki były oczywiste, wybierzemy absurdalnie mały zestaw danych z dwóch punktów: (2, 5) i (2.1, 8). Rzut monetą leci do pierwszego punktu, ogony do drugiego, wprowadzając szum, tworząc zbiór danych (3, 5), (2.1, 8). Teraz sieć neuronowa uczy się z zestawu danych, który wygląda, jakby istniała znacząca korelacja między wartościami xiy, mimo że prawie wszystko to szum. Jeśli następnie wyślesz tę sieć w rzeczywistych danych, wygeneruje ona wiele błędnych wyników
Cort Ammon - Przywróć Monikę
39

Wersja ELI5

Tak właśnie wyjaśniłem mojemu 6-latkowi.

Kiedyś była dziewczyna o imieniu Mel ( „Get it? ML?” „Tato, jesteś chromy” ). I każdego dnia Mel bawiła się z inną przyjaciółką, a każdego dnia grała, był słoneczny, cudowny dzień.

Mel grał z Jordanem w poniedziałek, Lily we wtorek, Mimi w środę, Olive w czwartek .. a następnie w piątek Mel grał z Brianną i padało. To była straszna burza!

Więcej dni, więcej przyjaciół! Mel grał z Kwanem w sobotę, Grayson w niedzielę, Asa w poniedziałek ... a potem we wtorek Mel grał z Brooke i znów padało, jeszcze gorzej niż wcześniej!

Teraz mama Mel grała wszystkie daty, więc tej nocy podczas kolacji zaczyna opowiadać Mel o nowych terminach, które ustawiła w kolejce. „Luis w środę, Ryan w czwartek, Jemini w piątek, Bianca w sobotę…”

Mel zmarszczył brwi.

Mama Mela zapytała: „Co się dzieje, Mel, nie lubisz Bianki?”

Mel odpowiedziała: „Och, jasne, jest świetna, ale za każdym razem, gdy gram z przyjacielem, którego imię zaczyna się na B, pada deszcz!”.


Co jest nie tak z odpowiedzią Mela?

Cóż, może nie padać w sobotę.

Cóż, nie wiem, to znaczy, Brianna przyszła i padało, Brooke przyszło i padało ...

Tak, wiem, ale deszcz nie zależy od twoich przyjaciół.

Kyle Hale
źródło
10
I na to drugie pytanie, to właśnie oznacza „uczenie się od hałasu”.
Kyle Hale
Do komentarza na temat deszczu - Ale robimy to, a następnie pracujemy w ten sposób i dowiadujemy się więcej później.
Osoba przyjazna 44
13
@ FriendlyPerson44 Masz rację, ludzie popełniają błędy i robią złe rzeczy, takie jak przebranie. Twoje pytanie dotyczy tego, dlaczego nadmierne dopasowanie jest złe, a nie to, czy ludzie to robią.
Kyle Hale
1
Ten problem dotyczy nie tylko słabo uczących się robotów, ale także słabo uczących się ludzi.
Tomáš Zato - Przywróć Monikę
Nie do końca podążam: deszcz nie powinien być przede wszystkim zmienną predykcyjną, co to ma wspólnego z nadmiernym dopasowaniem?
mucaho
14

N.N.

Yuval Filmus
źródło
Ale jego nadprzyrodzone działania są powiązane z określonymi zmysłami i tylko wtedy, gdy ponownie zobaczy te same zmysły, dopasowuje pamięć i linki do tych działań, nie zrobi ich, gdy zobaczy inne rzeczy. Uogólnianie to dwie rzeczy - wszystkie te obrazy drzew są drzewami i wykorzystaj wiedzę z przeszłości, aby odkryć tę nową rzecz. Aby moja sztuczna inteligencja mogła rozwiązać ten problem, widzi drzewo i słyszy „drzewo”, a to dopasowuje pamięć i przenosi ją na wierzch, a następnie widzi nowe drzewa i ich nazwy, a wszystkie one łączą się z zmysłami w najnowszej pamięci - pierwszy obraz drzewa i dźwięk. Odkrywanie nowej, pokrewnej rzeczy przez knwldge to nowe działanie
Friendly Person 44
2
@ FriendlyPerson44 W nadzorowanym uczeniu maszynowym wynik szkolenia nie powinien wymagać dalszych zmian. Tutaj zaczyna się gra „przeuczenie”. To tak, jakby maszyna nauczyła się rozpoznawać drzewo - najpierw na podstawie kolorów, potem kształtu ogólnego, a następnie określonego kształtu ( gdzie powinien się zatrzymać ), ale potem zaczyna rozróżniać drzewa według dodatkowych losowych wzorów, które znalazł tylko w twoim zestaw treningowy. Kiedy pozwalasz mu zobaczyć nowe losowe zdjęcia drzew, decyduje, że to nie są drzewa. W tym momencie najgorszym przypadkiem jest to, że jest w użyciu i nikt go nie nadzoruje!
DoubleDouble
Ale moje rozpoznaje drzewo, zapisując obraz drzewa i dźwięk „drzewa” i łącząc oba zmysły razem, a gdy drzewo jest wypowiedziane, dopasowuje to, co jest w pamięci i przenosi dopasowanie i wszelkie powiązane z nim na wierzch pamięci, a następnie, gdy pokazano inne drzewa i nazywane nowymi nazwami te obrazy i dźwięki przypominają pierwsze wyuczone. Drzewa nie są jednak wyzwalaczami, ale to nie będzie zapisywanie akcji, gdy zobaczy kolor lub wzór. Mój naprawdę uczy się akcji.
Friendly Person 44
1
@ FriendlyPerson44 Co to ma wspólnego z tym, dlaczego nadmierne dopasowanie jest złe?
DoubleDouble
9

Z grubsza mówiąc, nadmierne dopasowanie zwykle występuje, gdy stosunek

wprowadź opis zdjęcia tutaj

jest zbyt wysoko.

Pomyśl o nadmiernym dopasowaniu jako sytuacji, w której model uczy się na pamięć danych treningowych zamiast uczenia się dużych zdjęć, które uniemożliwiają uogólnienie na dane testowe: dzieje się tak, gdy model jest zbyt złożony w stosunku do wielkości dane treningowe, to znaczy, gdy rozmiar danych treningowych jest zbyt mały w porównaniu ze złożonością modelu.

Przykłady:

  • jeśli twoje dane są w dwóch wymiarach, masz 10000 punktów w zestawie treningowym, a model jest linią, prawdopodobnie nie osiągniesz dopasowane.
  • jeśli dane są w dwóch wymiarach, masz 10 punktów w zbiorze uczącym, a model 100-stopień wielomianu, jest prawdopodobne, aby nad dopasowane.

wprowadź opis zdjęcia tutaj

Z teoretycznego punktu widzenia ilość danych potrzebnych do prawidłowego wyszkolenia modelu jest kluczowym, ale wymagającym odpowiedzi na wiele pytań w uczeniu maszynowym. Jednym z takich podejść do odpowiedzi na to pytanie jest wymiar VC . Innym jest kompromis wariancji odchylenia .

Z empirycznego punktu widzenia ludzie zwykle wykreślają błąd szkolenia i błąd testu na tym samym wykresie i upewniają się, że nie zmniejszają błędu szkolenia kosztem błędu testu:

wprowadź opis zdjęcia tutaj

Radziłbym obejrzeć kurs Coursera „Uczenie maszynowe , sekcja„ 10: Porady dotyczące stosowania uczenia maszynowego ”.

Franck Dernoncourt
źródło
1
Podoba mi się linia „uczenia się na pamięć”, ponieważ ludzie są w stanie (i robią to) do pewnego stopnia. Wyobraź sobie, że podejmiesz bardzo trudny quiz, w którym pytania i odpowiedzi nigdy się nie zmienią, ale usłyszysz odpowiedzi, gdy popełnisz błąd. Udawaj, że równanie (2 + 2) jest trudne, rozpoznajesz równanie i mówisz „4” - ale wtedy pojawia się (2 + 3), ale nie nauczyłeś się dodawać, dopiero nauczyłeś się mówić „4” gdy masz „2 + 2”
DoubleDouble
fajne wyjaśnienie
Nikos M.
4

Myślę, że powinniśmy rozważyć dwie sytuacje:

Trening skończony

Istnieje ograniczona ilość danych, których używamy do szkolenia naszego modelu. Następnie chcemy użyć modelu.

W takim przypadku, jeśli się dopasujesz, nie stworzysz modelu zjawiska, które dało dane, ale stworzysz model swojego zestawu danych. Jeśli Twój zestaw danych nie jest idealny - mam problem z wyobrazeniem sobie idealnego zestawu danych - Twój model nie będzie działał dobrze w wielu lub niektórych sytuacjach, w zależności od jakości danych, na których trenowałeś. Tak więc nadmierne dopasowanie doprowadzi do specjalizacji twojego zestawu danych, gdy chcesz uogólnienia, aby wymodelować zjawisko.

Kontynuacja nauczania

Nasz model będzie cały czas otrzymywać nowe dane i będzie się uczył. Być może istnieje początkowy okres zwiększonej elastyczności, aby uzyskać akceptowalny punkt początkowy.

Ten drugi przypadek jest bardziej podobny do treningu ludzkiego mózgu. Kiedy człowiek jest bardzo młody, nowe przykłady tego, czego chcesz się nauczyć, mają wyraźniejszy wpływ niż gdy jesteś starszy.

W tym przypadku nadmierne dopasowanie stanowi nieco inny, ale podobny problem: systemy, które są objęte tym przypadkiem, są często systemami, które powinny spełniać funkcje podczas uczenia się. Zastanów się, jak człowiek nie siedzi gdzieś, podczas gdy przedstawia mu nowe dane, z których można się uczyć. Człowiek cały czas wchodzi w interakcje ze światem i przeżywa.

Można argumentować, że ponieważ dane wciąż nadchodzą, wynik końcowy zadziała dobrze, ale w tym czasie należy wykorzystać to, czego się nauczyliśmy! Przeregulowanie zapewni takie same efekty w krótkim czasie, jak w przypadku 1, co pogorszy wydajność twojego modelu. Ale funkcjonowanie zależy od wydajności twojego modelu!

Spójrz na to w ten sposób, jeśli się przebrniesz, możesz rozpoznać tego drapieżnika, który próbuje cię zjeść w przyszłości po wielu innych przykładach, ale kiedy drapieżnik zjada cię, jest to dyskusja.

Niels
źródło
Dobra odpowiedź na pytanie, które implikuje operacja: „Dlaczego musimy zapobiegać nadmiernemu dopasowaniu w wirtualnych mózgach, kiedy nasze mózgi wydają się działać dobrze, bez żadnej kompensacji nadmiernego dopasowania” - ponieważ maszyna jest wyszkolona, ​​podczas gdy ludzie uczą się sami.
Falco
3

Powiedzmy, że chcesz nauczyć komputer rozpoznawania dobrych i złych produktów i podaj mu następujący zestaw danych: schemat z zestawem danych.  0 do 50 to 0. 52, a 74 to 0. Pozostałe wartości od 51 do 100 to 1

0 oznacza, że ​​produkt jest wadliwy, 1 oznacza, że ​​jest OK. Jak widać, istnieje silna korelacja między osią X i Y. Jeśli zmierzona wartość jest mniejsza lub równa 50, jest bardzo prawdopodobne (~ 98%), że produkt jest wadliwy, a powyżej jest bardzo podobne (~ 98%), jest OK. 52 i 74 są wartościami odstającymi (źle zmierzone lub nie zmierzone czynniki odgrywające rolę; znane również jako hałas). Zmierzoną wartością może być grubość, temperatura, twardość lub coś innego, a jej jednostka nie jest ważna w tym przykładzie, więc ogólny algorytm byłby

if(I<=50)
    return faulty;
else
    return OK;

Miałoby to szansę na 2% błędnej klasyfikacji.

Algorytm nadmiernego dopasowania byłby:

if(I<50)
    return faulty;
else if(I==52)
    return faulty;
else if(I==74)
    return faulty;
else
    return OK;

Tak więc algorytm nadmiernego dopasowania błędnie zaklasyfikowałby wszystkie produkty o wartości 52 lub 74 jako wadliwe, chociaż istnieje duża szansa, że ​​będą one OK, jeśli otrzymają nowe zestawy danych / zostaną użyte w produkcji. Miałoby to szansę 3,92% błędnej klasyfikacji. Dla zewnętrznego obserwatora takie błędne zaklasyfikowanie byłoby dziwne, ale można je wytłumaczyć, znając oryginalny zestaw danych, który został przeładowany.

W przypadku oryginalnego zestawu danych najlepszy jest algorytm przeładowany, w przypadku nowych zestawów danych najprawdopodobniej najlepszy jest ogólny (niepoprawny) algorytm. Ostatnie zdanie opisuje w zasadzie znaczenie nadmiernego dopasowania.

H. Idden
źródło
2

Na moim szkolnym kursie AI nasz instruktor podał przykład podobny do Kyle'a Hale'a:

Dziewczyna i jej matka idą razem w dżungli, gdy nagle tygrys wyskakuje z zarośli i pożera matkę. Następnego dnia idzie z ojcem przez dżunglę i znowu tygrys wyskakuje z zarośli. Ojciec krzyczy na nią, żeby uciekała, ale odpowiada: „Och, w porządku tato, tygrysy jedzą tylko matki”.

Ale z drugiej strony:

Dziewczyna i jej matka idą razem w dżungli, gdy nagle tygrys wyskakuje z zarośli i pożera matkę. Następnego dnia jej ojciec odkrywa, że ​​kuli się w swoim pokoju i pyta ją, dlaczego nie bawi się z przyjaciółmi. Odpowiada „Nie! Jeśli wyjdę na zewnątrz tygrys z pewnością mnie zje!”

Zarówno niedopasowanie, jak i niedopasowanie mogą być złe, ale powiedziałbym, że zależy to od kontekstu problemu, który próbujesz rozwiązać, który bardziej Cię martwi.

Czarny Jastrząb
źródło
Zobacz także podobne pytanie w CrossValidated .
Blackhawk
2

Taką, z którą się zetknąłem. Najpierw mierzę coś tam, gdzie spodziewam się, że stosunek wejścia do wyjścia będzie mniej więcej liniowy. Oto moje surowe dane:

Input   Expected Result
1.045   0.268333453
2.095   0.435332226
3.14    0.671001483
4.19    0.870664399
5.235   1.073669373
6.285   1.305996464
7.33    1.476337174
8.38    1.741328368
9.425   1.879004941
10.47   2.040661489

A oto wykres:

wprowadź opis zdjęcia tutaj

Zdecydowanie wydaje się pasować do moich oczekiwań dotyczących danych liniowych. Czy wyprowadzenie równania powinno być dość proste, prawda? Pozwolisz więc programowi przeanalizować te dane przez chwilę, a na koniec zgłasza, że ​​znalazł równanie, które uderza we wszystkie te punkty danych, z dokładnością na poziomie 99,99%! Niesamowite! I to równanie to ... 9sin (x) + x / 5. Który wygląda tak: wprowadź opis zdjęcia tutaj

Cóż, równanie zdecydowanie przewiduje dane wejściowe z niemal idealną dokładnością, ale ponieważ jest tak dopasowane do danych wejściowych, jest prawie bezużyteczne do robienia czegokolwiek innego.

Mucząca Kaczka
źródło
Myślę, że nadmierne dopasowanie jest bardziej kwestią tego, co robisz niepoprawnie, gdy masz już dane wejściowe. Tutaj nic nie możesz zrobić; dane wejściowe są nieodpowiednie, ponieważ występuje niepełne próbkowanie.
Emre,
1
@Emre: Nie zamierzam przechwytywać próbek, chciałem, aby wejście / wyjście było liniowe, ale przeregulowanie wytworzyło równanie, które było wyraźnie nieliniowe. Będę edytować, aby wyjaśnić.
Kaczka Mooing
1

Spójrz na ten artykuł, dość dobrze wyjaśnia on przeregulowanie i niedopasowanie.

http://scikit-learn.org/stable/auto_examples/model_selection/plot_underfitting_overfitting.html

Artykuł analizuje przykład danych sygnałowych z funkcji cosinus. Model nadmiernego dopasowania przewiduje, że sygnał będzie nieco bardziej skomplikowaną funkcją (która również opiera się na funkcji cosinus). Jednak model przebudowany stwierdza, że ​​opiera się to nie na uogólnieniu, ale na zapamiętywaniu szumu w danych sygnałowych.

Arnab Datta
źródło
4
Jeśli ten link się zepsuje, twoja odpowiedź będzie prawie bezwartościowa. Podaj przynajmniej streszczenie (oczywiście z podaniem autorstwa), aby odpowiedź miała wartość niezależną od tego linku.
Raphael
1

Bez doświadczenia w uczeniu maszynowym i osądzaniu na podstawie odpowiedzi @ jmite tutaj jest wizualizacja tego, co według mnie ma na myśli:

Losowy wykres przybliżonego prawidłowego kształtu do celów demonstracyjnych

Załóżmy, że poszczególne słupki na powyższym wykresie to twoje dane, dla których próbujesz obliczyć ogólne trendy dotyczące większych zestawów danych. Twoim celem jest znalezienie zakrzywionej linii. Jeśli dopasujesz się - zamiast pokazanej zakrzywionej linii, połączysz górną część każdego pojedynczego paska razem, a następnie zastosujesz to do swojego zestawu danych - i uzyskasz dziwną, niedokładną, kolczastą odpowiedź, gdy hałas (odmiany od oczekiwanej) ulegnie nadmiernej do twoich prawdziwych zbiorów danych.

Mam nadzieję, że trochę pomogłem ...

Azrantha
źródło
0

Nadmierne dopasowanie w prawdziwym życiu:

Biała osoba ogląda wiadomości o tym, jak czarny popełnia przestępstwo. Biała osoba widzi kolejną wiadomość o tym, że czarny popełnia przestępstwo. Biała osoba widzi trzecią wiadomość o tym, że czarny popełnia przestępstwo. Biała osoba ogląda wiadomości o białej osobie w czerwonej koszuli, zamożnych rodzicach i historii chorób psychicznych, którzy popełniają przestępstwo. Biała osoba dochodzi do wniosku, że wszyscy Czarni popełniają przestępstwa, a tylko biali w czerwonych koszulach, zamożni rodzice i historia chorób psychicznych popełniają przestępstwa.

Jeśli chcesz zrozumieć, dlaczego tego rodzaju nadmierne dopasowanie jest „złe”, po prostu zastąp „czarne” powyżej pewnym atrybutem, który mniej lub bardziej jednoznacznie Cię definiuje.

Kosiarz umyslów
źródło
Stereotypowanie jest tym, co ludzie nazywają nadmiernym dopasowaniem.
Emre
3
To nie pasuje. Nadmierne dopasowanie byłoby systemem decydującym, że jedynymi ludźmi, którzy są przestępcami, są ci, którzy mają ten sam kolor skóry, kolor koszuli, dochód rodziców i historię chorób psychicznych jak jeden z przestępców w wiadomościach.
David Richerby,
8
@Emre Nie, stereotypowanie jest dokładnym przeciwieństwem nadmiernego dopasowania. Stereotypowanie dochodzi do wniosków, które ignorują większość właściwości danych treningowych. Nadmierne dopasowanie dochodzi do wniosku, że tylko dane, które każdy punkt danych treningowych doskonale opisuje część rzeczy, którą próbujesz rozpoznać.
David Richerby,
Uwaga moderatora: komentarze nie na temat / poza kontekstem zostały usunięte. Ogólną dyskusję można znaleźć na czacie informatyki . Jeśli masz pytanie dotyczące konkretnego programu, który może lub nie może zbyt dobrze wykorzystywać nadmierne dopasowanie, zadaj nowe pytanie.
Gilles „SO- przestań być zły”
2
@ ArnabDatta Overfitting zbyt dokładnie dopasowuje zbyt skomplikowany model do danych treningowych; stereotypowanie to użycie nadmiernie uproszczonego modelu.
David Richerby,
0

Wszelkie testowane dane będą miały właściwości, których chcesz się nauczyć, a niektóre właściwości, które nie mają znaczenia, których NIE chcesz, aby się uczyły.

John ma 11 lat.
Jack ma 19 lat.
Kate ma 31 lat
Lana ma 39 lat

Prawidłowe dopasowanie: wiek jest w przybliżeniu liniowy, przechodzi przez ~ 20 lat
Przebicie: Dwóch ludzi nie może być w odległości 10 lat (właściwość hałasu w danych)
Niedopasowanie: 1/4 wszystkich ludzi ma 19 lat (stereotypy)

Nacięcie
źródło
Witamy! Mamy już wiele nieformalnych przykładów, więc nie jestem pewien, czy to wiele dodaje. Wydaje się, że trudno jest uczynić ten przykład bardziej formalnym. Na przykład, o jakiej funkcji liniowej wspominasz? Dane wejściowe do funkcji wydają się imieniem osoby, która nie jest liczbą. Tymczasem „dwóch ludzi nie może być w odległości dziesięciu lat”, a „1/4 ludzi w wieku 19 lat” nie są przykładami funkcji wyuczonych z danych.
David Richerby