Polecam zajrzeć do „7.10.2 Niewłaściwy i właściwy sposób dokonywania weryfikacji krzyżowej” w http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .
Autorzy podają przykład, w którym ktoś wykonuje następujące czynności:
- Sprawdź predyktory: znajdź podzbiór „dobrych” predyktorów, które wykazują dość silną (jednoczynnikową) korelację z etykietami klas
- Używając tylko tego podzbioru predyktorów, zbuduj klasyfikator wielowymiarowy.
- Użyj walidacji krzyżowej, aby oszacować nieznane parametry strojenia i oszacować błąd prognozowania ostatecznego modelu
Brzmi to bardzo podobnie do wykonywania EDA na wszystkich (tj. Szkoleniach plus testach) danych i wykorzystywania EDA do wybierania „dobrych” predyktorów.
Autorzy wyjaśniają, dlaczego jest to problematyczne: poziom błędu zweryfikowany krzyżowo będzie sztucznie niski, co może wprowadzić cię w błąd, sądząc, że znalazłeś dobry model.
Zastosowanie EDA do danych testowych jest nieprawidłowe.
Szkolenie to proces szukania poprawnych odpowiedzi w celu stworzenia najlepszego modelu. Ten proces nie ogranicza się tylko do uruchamiania kodu na danych szkoleniowych. Wykorzystywanie informacji z EDA w celu podjęcia decyzji, którego modelu użyć, w celu dostosowania parametrów itd. Jest częścią procesu szkolenia i dlatego nie powinno się zezwalać na dostęp do danych testowych. Aby być wiernym sobie, używaj danych testowych tylko do sprawdzania wydajności swojego modelu.
Ponadto, jeśli zdasz sobie sprawę, że model nie działa dobrze podczas testowania, a następnie wrócisz do dostosowywania modelu, to też nie jest dobrze. Zamiast tego podziel dane treningowe na dwa. Użyj jednego do treningu, a drugiego do przetestowania i ulepszenia swojego modelu (modeli). Zobacz Jaka jest różnica między zestawem testowym a zestawem sprawdzania poprawności?
źródło
Po akapicie tej odpowiedzi . Hastie wyjaśnia dalej str.245 :
źródło
Wykonujesz EDA dla całego zestawu danych. Na przykład, jeśli używasz weryfikacji krzyżowej z pominięciem jednego , jak zrobiłbyś EDA tylko na zbiorze danych szkoleniowych ? W tym przypadku każda obserwacja to trening i utrata umiejętności przynajmniej raz.
Więc nie, kształtujesz zrozumienie danych na całej próbce. Jeśli jesteś w konfiguracji przemysłowej, jest to jeszcze bardziej widoczne. Oczekuje się, że pokażesz trendy i ogólny opis danych interesariuszom w firmie i zrobisz to na całej próbie.
źródło