Czy ostateczny (gotowy do produkcji) model powinien być szkolony na kompletnych danych, czy tylko na zestawie szkoleniowym?

23

Załóżmy, że trenowałem kilka modeli na zestawie treningowym, wybierz najlepszy, używając zestawu do krzyżowej weryfikacji i mierzonej wydajności na zestawie testowym. Więc teraz mam jeden ostateczny najlepszy model. Czy powinienem przekwalifikować je na wszystkie dostępne dane lub wysłać rozwiązanie szkolone tylko na zestawie szkoleniowym? Jeśli to drugie, to dlaczego?

AKTUALIZACJA: Jak zauważył @ P.Windridge, wysyłka przekwalifikowanego modelu zasadniczo oznacza wysyłkę modelu bez walidacji. Możemy jednak zgłosić wydajność zestawu testowego, a następnie ponownie przeszkolić model w zakresie pełnych danych, słusznie oczekując, że wydajność będzie lepsza - ponieważ używamy naszego najlepszego modelu i większej liczby danych. Jakie problemy mogą wynikać z takiej metodologii?

Jurij
źródło
Czy pracujesz w środowisku zewnętrznie regulowanym? (tzn. być może musisz wysłać sprawdzony model, a twoje pytanie jest jedynie hipotetyczne, ale i tak warto je omówić :)). Edytuj: ok. Widzę, że edytowałeś swój post.
P.Windridge
Czy uważasz, że twoje dane testowe są reprezentatywne dla populacji / obejmują część populacji nieobjętą próbą twórczą? Czy Twoja oryginalna próbka rozwojowa jest w jakiś sposób niewystarczająca?
P.Windridge
@ P.Windridge dobrze, moje pytanie jest tylko hipotetyczne. Co do twojego drugiego komentarza, uważam, że nikt nie powinien oczekiwać, że inżynier wyszkoli dobry model, podając mu niereprezentatywne dane.
Yurii,
1
Nie wyobrażam sobie wielu sytuacji, w których wyślesz model bez zatwierdzenia. Wolę zastanowić się nad zmniejszeniem wielkości próbki testowej (pod warunkiem, że nadal będzie wystarczająco duża, aby ją zatwierdzić!). Być może bardziej interesująca dyskusja dotyczy zalet / wad / wyboru / modelu opartego na / wszystkich / danych, a następnie szkolenia go przy użyciu podpróbki, a następnie sprawdzania poprawności w pozostałych przypadkach.
P.Windridge
1
Podobne pytanie = stats.stackexchange.com/questions/174026/… , choć myślę, że
przydałoby się

Odpowiedzi:

15

Prawie zawsze dostaniesz lepszy model po zamontowaniu całej próbki. Ale jak powiedzieli inni, nie masz potwierdzenia. Jest to podstawowa wada podejścia polegającego na dzieleniu danych. Dane nie tylko dzielą utraconą możliwość bezpośredniego modelowania różnic między próbkami w całym modelu, ale są niestabilne, chyba że cała próbka może być większa niż 15 000 badanych. Dlatego konieczne jest 100 powtórzeń 10-krotnej walidacji krzyżowej (w zależności od wielkości próbki), aby osiągnąć precyzję i stabilność, i dlatego pasek startowy dla silnej wewnętrznej walidacji jest jeszcze lepszy. Bootstrap pokazuje także, jak trudny i arbitralny jest wybór funkcji.

Problemy z walidacją „zewnętrzną” opisałem bardziej szczegółowo w Biostatistics in Biomedical Research Rozdział 10.11.

Frank Harrell
źródło
Terminologia w mojej dziedzinie (chemia analityczna) rozważałaby jakikolwiek podział danych, który robisz na (przed) rozpoczęciem szkolenia, w dużej mierze wewnętrzną walidację. Zewnętrzna walidacja zaczynałaby się gdzieś pomiędzy przeprowadzeniem dedykowanego badania walidacyjnego a próbami pierścieniowymi.
cbeleites obsługuje Monikę
0

Nie musisz ponownie trenować. Kiedy raportujesz swoje wyniki, zawsze raportujesz wyniki danych testowych, ponieważ zapewniają one lepsze zrozumienie. Dzięki zestawowi danych testowych możemy dokładniej zobaczyć, jak dobrze model może działać na danych poza próbą.

Umar
źródło
4
Możemy zgłosić wydajność zestawu testowego, a następnie ponownie przeszkolić model w zakresie pełnych danych, słusznie oczekując, że wydajność będzie lepsza - ponieważ korzystamy z trybu najlepszego plus więcej danych. Czy moje rozumowanie ma wadę?
Yurii
Cóż, jeśli po testowaniu zbierzesz więcej danych, możesz je ponownie podzielić, ponownie przeszkolić, a następnie ponownie przetestować, a następnie zgłosić wynik testu z ponownego testu.
Umar
6
Nie oceniając całej próby, rezygnujesz z możliwości wyższej wydajności. To nie jest uzasadnione. Zgadzam się również z powyższym komentarzem Yurii.
Richard Hardy
@RichardHardy, co jest nie tak w moim komentarzu?
Umar
Zostało to określone w moim ostatnim komentarzu. Nie wykorzystując wszystkich danych do oszacowania modelu, tracisz najwyższą dostępną wydajność. Dlaczego to robisz
Richard Hardy