Jaka jest różnica między zestawem testowym a zestawem walidacyjnym?

431

Zauważyłem to mylące, gdy korzystam z przybornika sieci neuronowej w Matlabie.
Podzielił nieprzetworzony zestaw danych na trzy części:

  1. zestaw treningowy
  2. zestaw sprawdzania poprawności
  3. zestaw testowy

Zauważam, że w wielu algorytmach szkoleniowych lub uczących się dane często dzielą się na 2 części, zestaw szkoleniowy i zestaw testowy.

Moje pytania to:

  1. jaka jest różnica między zestawem walidacyjnym a zestawem testowym?
  2. Czy zestaw walidacyjny jest naprawdę specyficzny dla sieci neuronowej? Lub jest opcjonalny.
  3. Idąc dalej, czy istnieje różnica między sprawdzaniem poprawności a testowaniem w kontekście uczenia maszynowego?
xiaohan2012
źródło
56
Odpowiedź na to pytanie znajduje się w książce Elementy statystycznego uczenia się, strona 222. Zestaw walidacyjny służy do wyboru modelu, zestaw testowy do modelu końcowego (model wybrany przez proces selekcji) błąd przewidywania.
mpiktas
@mpiktas Czy odwołujesz się do rozdziału „Ocena i wybór modelu”?
Celdor
2
Tak. Numer strony pochodzi z 5. edycji wydruku.
mpiktas
13
@mpiktas jest na miejscu. Oto aktualny tekst:The training set is used to fit the models; the validation set is used to estimate prediction error for model selection; the test set is used for assessment of the generalization error of the final chosen model. Ideally, the test set should be kept in a “vault,” and be brought out only at the end of the data analysis.
arun

Odpowiedzi:

254

Zwykle do uczenia nadzorowanego potrzebne są dwa typy zestawów danych:

  1. W jednym zestawie danych („złotym standardzie”) masz dane wejściowe wraz z poprawnymi / oczekiwanymi danymi wyjściowymi. Ten zestaw danych jest zwykle odpowiednio przygotowywany przez ludzi lub przez gromadzenie niektórych danych w sposób półautomatyczny. Ważne jest jednak, aby mieć tutaj oczekiwany wynik dla każdego wiersza danych, ponieważ jest on potrzebny do uczenia nadzorowanego.

  2. Dane, do których zamierzasz zastosować swój model. W wielu przypadkach są to dane, które są zainteresowane danymi wyjściowymi twojego modelu, a zatem nie masz jeszcze żadnych „oczekiwanych” danych wyjściowych.

Podczas uczenia maszynowego wykonujesz następujące czynności:

  1. Faza szkolenia: prezentujesz swoje dane ze „złotego standardu” i trenujesz swój model, łącząc dane wejściowe z oczekiwanymi wynikami.
  2. Faza sprawdzania poprawności / testowania: w celu oszacowania, jak dobrze Twój model został przeszkolony (zależy to od wielkości twoich danych, wartości, którą chciałbyś przewidzieć, danych wejściowych itp.) I oszacowania właściwości modelu (średni błąd dla predyktorów numerycznych, błędy klasyfikacji dla klasyfikatorów, wycofanie i precyzja modeli IR itp.)
  3. Faza aplikacji: teraz stosujesz świeżo opracowany model do rzeczywistych danych i otrzymujesz wyniki. Ponieważ zwykle nie masz żadnej wartości odniesienia w tego typu danych (w przeciwnym razie dlaczego miałbyś potrzebować swojego modelu?), Możesz jedynie spekulować na temat jakości danych wyjściowych modelu, korzystając z wyników fazy weryfikacji.

Faza walidacji jest często podzielona na dwie części :

  1. W pierwszej części po prostu patrzysz na swoje modele i wybierasz najskuteczniejsze podejście przy użyciu danych walidacyjnych (= walidacja)
  2. Następnie szacujesz dokładność wybranego podejścia (= test).

Stąd podział na 50/25/25.

W przypadku, gdy nie musisz wybierać odpowiedniego modelu spośród kilku podejść konkurencyjnych, możesz po prostu ponownie podzielić swój zestaw, tak że w zasadzie masz tylko zestaw treningowy i zestaw testowy, bez przeprowadzania walidacji wyszkolonego modelu. Osobiście dzielę je na 70/30.

Zobacz także to pytanie .

Alexander Galkin
źródło
21
Dlaczego nie miałbym wybrać modelu najlepiej działającego na podstawie zestawu testowego, całkowicie pozbywając się zestawu walidacyjnego?
Sebastian Graf,
4
Czy to z powodu nadmiernego dopasowania? A może dlatego, że potrzebujemy niezależnych statystyk opartych na wyniku testu, tylko do oszacowania błędu?
Sebastian Graf,
12
@Sebastian [Jeśli użyjesz tylko zestawu testowego:] „Błąd zestawu testowego ostatecznego wybranego modelu nie
doceni
23
Zestaw walidacyjny jest często używany do strojenia hiperparametrów. Na przykład w społeczności
zajmującej
2
Jaki jest prawidłowy sposób podziału zestawów? Czy wybór powinien być losowy? Co zrobić, jeśli masz podobne zdjęcia? Czy nie zaszkodzi to twojej zdolności do uogólnienia? Jeśli masz dwa zestawy zrobione w różnych lokalizacjach, czy nie lepiej byłoby wziąć jeden jako zestaw treningowy, a drugi jako zestaw testowy?
Yonatan Simson
263

Zestaw treningowy: zestaw przykładów używanych do nauki: dopasowanie parametrów klasyfikatora W przypadku Perceptronu Wielowarstwowego (MLP) użyjemy zestawu treningowego do znalezienia „optymalnych” wag z regułą back-prop

Zestaw walidacyjny: zestaw przykładów używanych do dostrajania parametrów klasyfikatora W przypadku MLP użyjemy zestawu walidacyjnego do znalezienia „optymalnej” liczby ukrytych jednostek lub ustalenia punktu zatrzymania dla algorytmu propagacji wstecznej

Zestaw testowy: zestaw przykładów wykorzystanych tylko do oceny wydajności w pełni przeszkolonego klasyfikatora W przypadku MLP test użyłby do oszacowania poziomu błędu po wybraniu ostatecznego modelu (rozmiar MLP i rzeczywiste wagi) Po ocenie ostateczny model z zestawu testowego, NIE WOLNO nastroić modelu!

Dlaczego oddzielne zestawy testów i sprawdzania poprawności? Oszacowanie poziomu błędu ostatecznego modelu na danych walidacyjnych będzie tendencyjne (mniejsze niż rzeczywisty poziom błędu), ponieważ zestaw walidacyjny służy do wyboru ostatecznego modelu Po ocenie ostatecznego modelu na zestawie testowym NIE WOLNO dostrajać modelu dalej!

źródło: Wprowadzenie do analizy wzorców, Ricardo Gutierrez-OsunaTexas A&M University, Texas A&M University

mohsen najafzadeh
źródło
42
+1 za „NIE WOLNO nastroić modelu!”
stmax
6
Jaka jest różnica między „dopasowaniem parametrów” a „dostrojeniem parametrów”?
Metariat
18
@stmax Nie bądź pedantyczny, ale kiedy mamy już ostatni błąd testu i NIE jesteśmy zadowoleni z wyniku, co robimy, jeśli nie możemy dostroić naszego modelu? ... Często zastanawiałem się nad tym przypadkiem.
Spacey,
5
@Tarantula możesz kontynuować strojenie modelu, ale będziesz musiał zebrać nowy zestaw testowy. Oczywiście nikt tego nie robi;) jednak naruszenie tego (szczególnie gdy kilkakrotnie go powtórzysz) może doprowadzić do dopasowania modelu do zestawu testowego - co skutkuje nierealistycznymi / zbyt optymistycznymi wynikami.
stmax,
4
Myślę, że ta nomenklatura jest myląca. Słusznie mówisz „NIE MOŻESZ dalej stroić modelu” po użyciu zestawu testowego, ale ... jaki obszar chcesz zrobić? Przestać nad tym pracować? W rzeczywistości potrzebujesz całej hierarchii zestawów testowych. 1: Zestaw sprawdzania poprawności - używany do strojenia modelu, 2: Zestaw testowy, używany do oceny modelu i sprawdzania, czy powinieneś wrócić do tablicy kreślarskiej, 3: Zestaw super-testowy, używany w algorytmie końcowo-końcowym, aby zobaczyć, jak dobrze, że to 4: zestaw hipertestów, używany po tym, jak naukowcy opracowują algorytmy MNIST od 10 lat, aby zobaczyć, jak szalenie się przeciążają ... itd. itp.
Timmmm
66

Moje 5-letnie doświadczenie w informatyce nauczyło mnie, że nie ma nic lepszego niż prostota.

Koncepcja zestawów danych „Trening / Walidacja krzyżowa / Test” jest tak prosta. W przypadku dużego zestawu danych zaleca się podzielenie go na 3 części:

++ Zestaw szkoleniowy (60% oryginalnego zestawu danych): służy do budowania naszego algorytmu prognozowania. Nasz algorytm stara się dostroić do dziwactwa zestawów danych treningowych. W tej fazie zwykle tworzymy wiele algorytmów w celu porównania ich wydajności podczas fazy weryfikacji krzyżowej.

++ Cross-Validation set (20% oryginalnego zestawu danych): Ten zestaw danych służy do porównania wydajności algorytmów prognozowania, które zostały utworzone na podstawie zestawu szkoleniowego. Wybieramy algorytm, który ma najlepszą wydajność.

++ Zestaw testowy (20% oryginalnego zestawu danych): Teraz wybraliśmy preferowany algorytm predykcji, ale nie wiemy jeszcze, jak będzie on działać na całkowicie niewidzialnych danych w świecie rzeczywistym. Dlatego stosujemy wybrany algorytm predykcji w naszym zestawie testowym, aby zobaczyć, jak będzie on działać, abyśmy mogli mieć pojęcie o wydajności naszego algorytmu na niewidzialnych danych.

Uwagi:

- Bardzo ważne jest, aby pamiętać, że pomijanie fazy testowej nie jest zalecane, ponieważ algorytm, który działał dobrze podczas fazy weryfikacji krzyżowej, nie oznacza, że ​​jest naprawdę najlepszy, ponieważ algorytmy są porównywane na podstawie krzyżowej - zestaw walidacyjny oraz jego dziwactwa i dźwięki ...

- Podczas fazy testowej celem jest sprawdzenie, jak nasz ostateczny model poradzi sobie na wolności, więc w przypadku jego niskiej wydajności powinniśmy powtórzyć cały proces, zaczynając od fazy szkolenia.

innovIsmail
źródło
1
łatwe i mylące jest określanie zbiorów jako faz i vice versa.
Matt O'Brien
2
@innovIsmail Co zrobić, jeśli pominę krok weryfikacji? Powiedzmy, że mam wiele algorytmów i trenowałem je na zestawie pociągów, następnie po prostu
stosuję
3
Wydaje mi się, że po prostu pomijasz etap testu.
Mihai Danila
1
> porównaj działanie algorytmów predykcyjnych - czym jest „algorytm” w tym kontekście? czy twój model nie jest algorytmem? czy trzeba zbudować kilka modeli i przeszkolić je osobno, aby uzyskać kilka faz do weryfikacji?
Boppity Bop
2
Ta prostota jest złudzeniem, ponieważ w sytuacji, gdy próba nie jest zbyt duża, można uzyskać zasadniczo różne algorytmy predykcyjne i wyniki walidacji, gdyby losowe podziały zostały powtórzone.
Frank Harrell,
33

Na każdym kroku, o który proszony jest o podjęcie decyzji (tj. Wybranie jednej opcji spośród kilku opcji), musisz mieć dodatkowy zestaw / partycję, aby zmierzyć dokładność swojego wyboru, abyś nie wybrał najkorzystniejszego wyniku losowości i pomyl ogon rozkładu z centrum 1 . Po lewej jest pesymista. Prawica jest optymistą. Centrum jest pragmatykiem. Bądź pragmatykiem.

wprowadź opis zdjęcia tutaj

Krok 1) Szkolenie: Każdy typ algorytmu ma swoje własne opcje parametrów (liczba warstw w sieci neuronowej, liczba drzew w losowym lesie itp.). Dla każdego z algorytmów musisz wybrać jedną opcję. Właśnie dlatego masz zestaw treningowy.

Krok 2) Sprawdzanie poprawności: masz teraz zbiór algorytmów. Musisz wybrać jeden algorytm. Właśnie dlatego masz zestaw testowy. Większość osób wybiera algorytm, który działa najlepiej na zestawie sprawdzania poprawności (i to jest w porządku). Ale jeśli nie mierzysz wskaźnika błędów algorytmu o najwyższej skuteczności w zestawie testowym i po prostu korzystasz z jego wskaźnika błędów w zestawie sprawdzania poprawności, ślepo pomyliłeś „najlepszy możliwy scenariusz” z „najbardziej prawdopodobnym scenariuszem”. To przepis na katastrofę.

Krok 3) Testowanie: Przypuszczam, że jeśli twoje algorytmy nie miały żadnych parametrów, nie potrzebowałbyś trzeciego kroku. W takim przypadku etap weryfikacji będzie etapem testowym. Być może Matlab nie pyta cię o parametry lub zdecydowałeś się ich nie używać i to jest przyczyną twojego pomieszania.

1 Często pomocne jest wchodzenie w każdy krok z założeniem (hipoteza zerowa), że wszystkie opcje są takie same (np. Wszystkie parametry są takie same lub wszystkie algorytmy są takie same), stąd moje odniesienie do rozkładu.

2 Ten obraz nie jest moim własnym. Wziąłem go z tej strony: http://www.teamten.com/lawrence/writings/bell-curve.png

Ryan Zotti
źródło
3
Myślę, że pierwsze zdanie lepiej oddaje podstawową odpowiedź na to pytanie niż jakakolwiek inna odpowiedź. „Na każdym kroku, o który należy podjąć decyzję (tj. Wybrać jedną z kilku opcji), musisz mieć dodatkowy zestaw / partycję, aby zmierzyć dokładność swojego wyboru ...”
kobejohn
Na pytanie: jeśli chcę znaleźć najlepszy RandomForest (RF) i udawanie, że istnieje tylko jeden hiperparametr RF, czyli liczba drzew (N), to w kroku 1 uruchamiam wiele RF z innym N, aby zbudować las ; w kroku 2 zastosuj je w teście walidacji i wybierz RF z N *, który daje najniższy błąd w porównaniu z testem walidacyjnym, a następnie w kroku 3 zastosuję RF z N * do zestawu testowego i uzyskam bezstronną ocenę prawdziwego błędu testu tego RF z N *. Ale mógłbym zastosować wszystkie moje RF na zestawie testowym i wybrać ten z najniższym błędem testu, który może nie być N *. Więc o to właśnie chodzi w kroku weryfikacji 2?
KevinKim
1
@KevinKim: Jeśli zastosujesz zestaw testowy do wszystkich RF i użyjesz wyników, aby dokonać dalszego wyboru (wybierz inny model), to właśnie powtórzyłeś krok sprawdzania poprawności. Zdecydowałeś się na „muszę uzyskać najniższy błąd z modelem!”. To jest punkt szkolenia i walidacji, a NIE testowania. Testy dotyczą tylko: Wyszkoliłem i wybrałem model, teraz zobaczmy, jak działa „ogólnie”. Oczywiście „ogólny” zestaw testowy jest tylko kolejnym fragmentem danych, które mogą lub nie mogą być nadmiernie dopasowane, ale chodzi o to, że TY świadomie nie dopasowałeś do niego swojego modelu przez wybory.
Honeybear
Podział trójsądny jest po prostu bardzo powszechnym podejściem (A), aby dać wyobrażenie o tym, jak model uogólnia (B) przy ograniczonym wysiłku i (C) ograniczonych obserwowanych danych. Jeśli chcesz zrobić coś lepszego pod względem (B), możesz zrobić to, co sugerujesz: Użyj różnych zestawów sprawdzania poprawności, aby finetune do uogólnienia. Przy ograniczonych danych, które nazywane są walidacją krzyżową: powtórz szkolenie i walidację z różnymi zestawami treningów i testów (w sieciach neuronowych, w których szkolenie może potrwać tygodnie, nie jest to rzeczą).
Honeybear
1
ALE: Jak ten model zachowa się „w prawdziwym świecie” jest wciąż nieznany. Jest to tylko potwierdzone i przetestowane założenie, że będzie dobrze działać na niewidzialnych danych, a dla celów naukowych jest to zwykle uważane za wystarczające. Jeśli teraz przejdziesz ponownie i wygenerujesz i wybierzesz modele, dopóki jeden nie pasuje idealnie do zestawu sprawdzania poprawności ORAZ zestawu testowego, oznacza to, że zestaw testowy został zdegenerowany do zestawu sprawdzania poprawności. Lepiej w tym celu przeprowadzić weryfikację krzyżową. W przypadku, gdy wydajność jest stale znacznie gorsza w zestawie testowym, zawsze jest opcja, że ​​dane są po prostu źle podzielone i chcesz zrestartować z ponownie przetasowanymi zestawami.
Honeybear
21

Nie oznacza to, że musisz w jakikolwiek sposób podzielić dane. Bootstrap może dostarczyć mniejszych oszacowań średnich błędów kwadratu dokładności prognozowania, wykorzystując całą próbkę zarówno do opracowania, jak i przetestowania modelu.

Frank Harrell
źródło
1
Więc nie opowiadasz się za walidacją krzyżową poprzez podział dużych zestawów danych do predykcyjnego testowania / walidacji modelu?
OFish
9
Nie, chyba że zestaw danych jest ogromny lub stosunek sygnału do szumu jest wysoki. Walidacja krzyżowa nie jest tak precyzyjna jak bootstrap z mojego doświadczenia i nie wykorzystuje całej wielkości próbki. W wielu przypadkach należy powtórzyć walidację krzyżową 50–100 razy, aby uzyskać odpowiednią dokładność. Ale w twoich zestawach danych znajduje się> 20 000 tematów, proste podejścia, takie jak sprawdzanie poprawności podzielonej próby, są często OK.
Frank Harrell,
2
To naprawdę dobrze wiedzieć! Dzięki. I pochodzące od ciebie, to świetne „źródło” informacji. Twoje zdrowie!
OFish
1
Sprawdzanie poprawności podzielonej próby często przebiega gorzej niż rygorystyczne ładowanie. Utwórz zewnętrzny wygląd paska startowego, który powtarza wszystkie nadzorowane kroki uczenia się (wszystkie kroki, które używają Y). Pasek startowy optymizmu Efron-Gong ocenia, jak bardzo model predykcyjny rozpada się w danych niewidocznych dla algorytmu, bez powstrzymywania danych.
Frank Harrell,
1
Tak, z naciskiem na powtarzanie . Problemem jest pojedynczy podział.
Frank Harrell
13

Typowe zadanie uczenia maszynowego można wizualizować jako następującą zagnieżdżoną pętlę:

while (error in validation set > X) {
    tune hyper-parameters
    while (error in training set > Y) {
        tune parameters
    }
}

Zazwyczaj pętla zewnętrzna jest wykonywana przez człowieka , na zestawie walidacyjnym , a pętla wewnętrzna przez maszynę , na zestawie szkoleniowym . Następnie potrzebujesz trzeciego zestawu testowego, aby ocenić ostateczną wydajność modelu.

Innymi słowy, zestaw walidacyjny jest zestawem szkoleniowym dla człowieka.

Yu Zhou
źródło
9

Jednym ze sposobów myślenia o tych trzech zestawach jest to, że dwa z nich ( trainingi validation) pochodzą z przeszłości, podczas gdy testzestaw pochodzi z „przyszłości”. Model należy budować i dostrajać przy użyciu danych z „przeszłości” ( training/ validationdata), ale nigdy testdanych pochodzących z „przyszłości”.

Aby dać praktyczny przykład, powiedzmy, że budujemy model, aby przewidzieć, jak dobrze grą baseballiści w przyszłości. Wykorzystamy dane z lat 1899-2014, aby stworzyć testi validationustawić. Po zbudowaniu i dostosowaniu modelu na podstawie tych danych wykorzystamy dane z 2015 r. (A właściwie z przeszłości!) Jako zestaw testowy, który z perspektywy modelu wygląda jak dane „przyszłe” i w żaden sposób nie wpłynął na tworzenie modelu . (Oczywiście teoretycznie moglibyśmy czekać na dane z 2016 r., Jeśli naprawdę chcemy!)

Oczywiście używam cudzysłowów wszędzie, ponieważ faktyczny porządek czasowy danych może nie pokrywać się z rzeczywistą przyszłością (z definicji cała generacja danych prawdopodobnie miała miejsce w przeszłości). W rzeczywistości testzestaw może być po prostu danymi z tego samego okresu co zestaw training/ validation, który „trzymasz”. W ten sposób nie miało to wpływu na strojenie modelu, ale te, które wstrzymują dane, nie pochodzą w rzeczywistości z przyszłości.

thecity2
źródło
4
Po przeczytaniu wszystkich pozostałych odpowiedzi ta odpowiedź sprawiła, że ​​„kliknąłem” dla mnie! Trenujesz z zestawem pociągów, sprawdzasz, czy nie przepełniasz go zestawem sprawdzania poprawności (i czy model i hiperparametry działają z „nieznanymi danymi”), a następnie oceniasz za pomocą zestawu testowego - „nowe dane” - czy teraz mieć moc predykcyjną ..!
Stolsvik
Jest to uczciwy sposób, aby spojrzeć na to w tym sensie, że testdane nigdy nie powinny być częścią procesu szkoleniowego: a jeśli traktujemy je jako dane „przyszłe”, staje się to niemożliwym błędem.
javadba
7

Większość nadzorowanych algorytmów eksploracji danych wykonuje następujące trzy kroki:

  1. Zestaw treningowy służy do budowy modelu. Zawiera zestaw danych, które mają wstępnie sklasyfikowane zmienne docelowe i predykcyjne.
  2. Zazwyczaj do oceny, jak dobrze model radzi sobie z danymi poza zestawem szkoleniowym, stosuje się zestaw danych lub zestaw testowy . Zestaw testowy zawiera wstępnie sklasyfikowane dane wyników, ale nie są one używane, gdy dane zestawu testowego są przepuszczane przez model do końca, kiedy wstępnie zaklasyfikowane dane są porównywane z wynikami modelu. Model jest dostosowywany w celu zminimalizowania błędów w zestawie testowym.
  3. Inny wyciszony zestaw danych lub zestaw walidacyjny jest wykorzystywany do oceny skorygowanego modelu w kroku 2, gdzie ponownie dane zestawu walidacyjnego są analizowane względem skorygowanego modelu i wyników w porównaniu z nieużywanymi danymi wstępnie sklasyfikowanymi.
Scott
źródło
4

Niektórzy ludzie mają wątpliwości co do tego, dlaczego używamy zestawu sprawdzania poprawności, więc dam proste, intuicyjne wyjaśnienie, co się stanie, jeśli nie użyjesz zestawu danych sprawdzania poprawności.

Jeśli nie użyjesz zestawu walidacyjnego, będziesz musiał wybrać hiperparametry i zdecydować, kiedy przerwać trening w oparciu o wydajność modelu w zestawie danych testowych. Jeśli zdecydujesz, kiedy przerwać szkolenie w oparciu o wydajność modelu w zestawie danych testowych, możesz po prostu przerwać szkolenie, gdy model wypadnie dobrze w zestawie danych testowych. Następnie, zgłaszając swoje wyniki, podajesz dokładność zestawu danych testowych. Problem polega na tym, że można powiedzieć, że Twój model spisał się naprawdę dobrze, podczas gdy w rzeczywistości była to tylko przypadkowa odmiana, która sprawiła, że ​​radził sobie lepiej tylko na zestawie testowym.

Jeśli zamiast tego użyjesz zestawu walidacyjnego, aby zdecydować, kiedy przerwać trening, dokładność modelu w zestawie testowym jest bardziej obiektywnym odzwierciedleniem tego, jak ogólnie radzi sobie on z zadaniem, i pokazuje, że nie zoptymalizowałeś model tylko po to, by dobrze spisać się na zestawie testowym.

dan dan
źródło
2

Chciałbym tutaj dodać do innych bardzo dobrych odpowiedzi, wskazując na stosunkowo nowe podejście w uczeniu maszynowym zwane „różnicową prywatnością” (zobacz artykuły Dwork; blog Win Vector, aby uzyskać więcej). Pomysł pozwala na ponowne wykorzystanie zestawu testowego bez pogorszenia wydajności ostatecznego modelu. W typowym ustawieniu zestaw testowy służy jedynie do oszacowania ostatecznej wydajności; idealnie nie wolno nawet na to patrzeć.

Jak dobrze opisano na blogu Win Vector (patrz także inne wpisy), możliwe jest „użycie” zestawu testowego bez wpływu na wydajność modelu. Odbywa się to za pomocą specjalnej procedury zwanej „różnicową prywatnością”. Uczący się nie będzie miał bezpośredniego dostępu do zestawu testów.

Vladislavs Dovgalecs
źródło
-1

Moim pomysłem jest to, że te opcje w zestawie narzędzi sieci neuronowej służą do unikania nadmiernego dopasowania. W tej sytuacji wagi są określone tylko dla danych treningowych i nie pokazują globalnego trendu. Dzięki zestawowi walidacji iteracje można dostosować do sytuacji, w których zmniejszenie błędu danych treningowych powoduje zmniejszenie danych walidacyjnych i zwiększenie błędu danych walidacyjnych; wraz ze zmniejszeniem błędu danych treningowych, pokazuje to zjawisko nadmiernego dopasowania.

Azade
źródło
Śmiem twierdzić, że zestawy testowe dodają kontroli poczytalności do całego procesu. Możesz mieć krzywą treningową, która powtarza krzywą walidacji / utraty w każdej epoce. Ale jeśli dokładność zestawu testowego nie poprawi się wraz z epokami lub czołgami, nie masz nic dobrego. Nadmiernie się dopasowujesz.
agcala