Czy walidacja wstrzymania jest lepszym przybliżeniem „uzyskiwania nowych danych” niż k-krotnie CV?

10

Zastanawiam się nad odpowiedzią na pytanie kilka tygodni temu

Potwierdzenie wzajemnej walidacji daje jeden zestaw testowy, który można wielokrotnie wykorzystywać do celów demonstracyjnych. Wydaje się, że wszyscy zgadzamy się, że jest to pod wieloma względami cecha negatywna, ponieważ jeden ustalony zestaw może okazać się niereprezentatywny z powodu losowości. Co więcej, możesz skończyć z niedopasowaniem do danych testowych w taki sam sposób, jak możesz dopasować się do danych treningowych.

Wydaje mi się jednak, że statyczna natura przetrzymywanej próbki jest lepszym przybliżeniem „uzyskiwania większej ilości danych” niż k-krotnie CV i pozwala uniknąć problemu uśredniania między fałdami. Nie mogę jednak wymyślić żadnej statystycznej podstawy tego uczucia, które mam. Czy w mojej intuicji jest jakaś logika?

Na przykład to, co mam na myśli w nadchodzącym projekcie, polega na użyciu walidacji wstrzymania do zbudowania i przetestowania modelu, a następnie jako kroku sprawdzania poprawności kilkukrotne ponowne wyciągnięcie zestawu wstrzymania, aby pokazać, że moje oszacowania błędu prognozowania ( na zestawie testowym) są odporne na błąd próbkowania w zestawie testowym. Czy to zły pomysł z jakiegokolwiek powodu? To pytanie zostało zadane wcześniej, ale nigdy nie otrzymało odpowiedzi.

Shadowtalker
źródło

Odpowiedzi:

6

IMHO jedną z najgorszych właściwości walidacji wstrzymania jest raczej psychologiczna niż statystyczna: widzę wiele opóźnień, które interpretowane są tak, jakby były niezależnym eksperymentem walidacyjnym (z niezależnością już na poziomie eksperymentalnym), chociaż wiele kluczowe problemy, które widzę podczas sprawdzania poprawności ponownego próbkowania, mogą i będą się pojawiać tak samo przy wstrzymywaniu (każdy problem, który wynika z niewłaściwego podziału).

Poza tym IMHO jest prawie taki sam jak resampling (przynajmniej tak, jak widziałem to w praktyce). Różnice są

  • całkowita liczba faktycznie różnych badanych przypadków jest niższa (w związku z tym oszacowanie jest mniej pewne).
  • W przypadku wstrzymania wydajność jest deklarowana dla faktycznie testowanego modelu, a nie dla faktycznie nieprzetestowanego modelu zbudowanego z trajektorii wstrzymania plus dane testowe wstrzymania. Ponowne próbkowanie twierdzi, że zmierzona wydajność jest dobrym przybliżeniem do wydajności tego drugiego modelu. Ale widziałem również, że w ten sposób zastosowano metodę wstrzymywania („sprawdzanie poprawności zestawu”).

Esbensen i Geladi: Zasady prawidłowej walidacji: stosowanie i nadużywanie ponownego próbkowania do celów walidacji, Journal of Chemometrics, 24 (3-4), 168-187 dowodzi, że w praktyce oba nie są bardzo dobrymi przybliżeniami zestawów danych (walidacja eksperymenty), które pozwalają zmierzyć naprawdę interesujące parametry wydajności.

możesz skończyć się zbytnim dopasowaniem do danych testowych w taki sam sposób, w jaki możesz dopasować się do danych treningowych.

Podobnie jak w przypadku każdej innej walidacji: w przypadku modelowania / wyboru modelu opartego na danych potrzebny jest inny niezależny poziom walidacji. Nie widzę tu żadnej różnicy między schematami wstrzymywania i ponownego próbkowania.

najpierw przy użyciu sprawdzania poprawności wstrzymania do zbudowania i przetestowania modelu, a następnie jako etap sprawdzania poprawności kilkukrotnie rysuje zestaw wstrzymania, aby pokazać, że moje oszacowania błędu prognozowania (na zestawie testowym) są odporne na błąd próbkowania w teście zestaw. Czy to zły pomysł z jakiegokolwiek powodu?

Myślę, że tak, tak: IMHO należy użyć zestawu zagnieżdżonego
(chyba że chcesz zasugerować, że walidacja wstrzymania może i powinna być również powtórzona - jest to prawidłowe podejście, które różni się od iteracji / powtarzania sprawdzania poprawności zestawu tylko interpretacją : czy deklaracja wydajności dotyczy wielu faktycznie przetestowanych modeli, czy też jest ekstrapolowana na jeden model zbudowany ze wszystkich danych).

cbeleites niezadowoleni z SX
źródło