Moje główne pytanie dotyczy prób zrozumienia, w jaki sposób k-krotna walidacja krzyżowa pasuje w kontekście posiadania zestawów szkoleniowych / walidacyjnych / testowych (jeśli w ogóle pasuje w takim kontekście).
Zwykle ludzie mówią o podziale danych na zestaw treningowy, walidacyjny i testowy - powiedzmy w stosunku 60/20/20 na kurs Andrew Ng - przy czym zestaw walidacyjny jest wykorzystywany do identyfikacji optymalnych parametrów treningu modelowego.
Jeśli jednak ktoś chciałby zastosować k-krotną weryfikację krzyżową w nadziei na uzyskanie bardziej reprezentatywnej miary dokładności, gdy ilość danych jest względnie mała, to co robi k-krotna weryfikacja krzyżowa pociąga za sobą dokładnie w tym podziale 60/20/20 scenariusz?
Czy na przykład oznacza to, że faktycznie połączylibyśmy zestawy szkoleniowe i testowe (80% danych) i przeprowadziliśmy na nich k-krotną weryfikację krzyżową, aby uzyskać naszą miarę dokładności (skutecznie odrzucając posiadając wyraźny „zestaw testowy”? Jeśli tak, jakiego wyszkolonego modelu używamy a) w produkcji, i b) do wykorzystania w stosunku do zestawu walidacyjnego i identyfikacji optymalnych parametrów szkolenia? Na przykład jedną z możliwych odpowiedzi dla aib jest być może model najlepiej pasujący.
Podział na szkolenie / walidację / testowanie jest również strategią pobierania próbek.
Możesz zastąpić szkolenie / walidację inną strategią pobierania próbek. Następnie wykonasz fold CV na 80% danych i przetestujesz na pozostałych 20%.K
Możesz także zastosować go do części testowej (tak nazywają zagnieżdżone sprawdzanie poprawności krzyżowej), gdzie fałdy są używane do treningu / sprawdzania poprawności, a pozostała część do testowania, a następnie iteruje się po fałdach.K−1
źródło