Załóżmy, że trenowałem kilka modeli na zestawie treningowym, wybierz najlepszy, używając zestawu do krzyżowej weryfikacji i mierzonej wydajności na zestawie testowym. Więc teraz mam jeden ostateczny najlepszy model. Czy powinienem przekwalifikować je na wszystkie dostępne dane lub wysłać rozwiązanie szkolone tylko na zestawie szkoleniowym? Jeśli to drugie, to dlaczego?
AKTUALIZACJA: Jak zauważył @ P.Windridge, wysyłka przekwalifikowanego modelu zasadniczo oznacza wysyłkę modelu bez walidacji. Możemy jednak zgłosić wydajność zestawu testowego, a następnie ponownie przeszkolić model w zakresie pełnych danych, słusznie oczekując, że wydajność będzie lepsza - ponieważ używamy naszego najlepszego modelu i większej liczby danych. Jakie problemy mogą wynikać z takiej metodologii?
Odpowiedzi:
Prawie zawsze dostaniesz lepszy model po zamontowaniu całej próbki. Ale jak powiedzieli inni, nie masz potwierdzenia. Jest to podstawowa wada podejścia polegającego na dzieleniu danych. Dane nie tylko dzielą utraconą możliwość bezpośredniego modelowania różnic między próbkami w całym modelu, ale są niestabilne, chyba że cała próbka może być większa niż 15 000 badanych. Dlatego konieczne jest 100 powtórzeń 10-krotnej walidacji krzyżowej (w zależności od wielkości próbki), aby osiągnąć precyzję i stabilność, i dlatego pasek startowy dla silnej wewnętrznej walidacji jest jeszcze lepszy. Bootstrap pokazuje także, jak trudny i arbitralny jest wybór funkcji.
Problemy z walidacją „zewnętrzną” opisałem bardziej szczegółowo w Biostatistics in Biomedical Research Rozdział 10.11.
źródło
Nie musisz ponownie trenować. Kiedy raportujesz swoje wyniki, zawsze raportujesz wyniki danych testowych, ponieważ zapewniają one lepsze zrozumienie. Dzięki zestawowi danych testowych możemy dokładniej zobaczyć, jak dobrze model może działać na danych poza próbą.
źródło