Zastanawiam się nad odpowiedzią na pytanie kilka tygodni temu
Potwierdzenie wzajemnej walidacji daje jeden zestaw testowy, który można wielokrotnie wykorzystywać do celów demonstracyjnych. Wydaje się, że wszyscy zgadzamy się, że jest to pod wieloma względami cecha negatywna, ponieważ jeden ustalony zestaw może okazać się niereprezentatywny z powodu losowości. Co więcej, możesz skończyć z niedopasowaniem do danych testowych w taki sam sposób, jak możesz dopasować się do danych treningowych.
Wydaje mi się jednak, że statyczna natura przetrzymywanej próbki jest lepszym przybliżeniem „uzyskiwania większej ilości danych” niż k-krotnie CV i pozwala uniknąć problemu uśredniania między fałdami. Nie mogę jednak wymyślić żadnej statystycznej podstawy tego uczucia, które mam. Czy w mojej intuicji jest jakaś logika?
Na przykład to, co mam na myśli w nadchodzącym projekcie, polega na użyciu walidacji wstrzymania do zbudowania i przetestowania modelu, a następnie jako kroku sprawdzania poprawności kilkukrotne ponowne wyciągnięcie zestawu wstrzymania, aby pokazać, że moje oszacowania błędu prognozowania ( na zestawie testowym) są odporne na błąd próbkowania w zestawie testowym. Czy to zły pomysł z jakiegokolwiek powodu? To pytanie zostało zadane wcześniej, ale nigdy nie otrzymało odpowiedzi.
źródło