Mam pytanie dotyczące procesu weryfikacji krzyżowej. Jestem w trakcie kursu uczenia maszynowego na Cursera. Jeden z tematów dotyczy weryfikacji krzyżowej. Trochę trudno było mnie śledzić. Wiem, dlaczego potrzebujemy CV, ponieważ chcemy, aby nasze modele działały dobrze na przyszłych (nieznanych) danych, a CV zapobiega nadmiernemu dopasowaniu. Jednak sam proces jest mylący.
Zrozumiałem, że dzielę dane na 3 podzbiory: szkolenie, sprawdzanie poprawności i testowanie. Train and Validation to znalezienie optymalnej złożoności modelu. To, czego nie rozumiem, to trzeci podzbiór. Rozumiem, że biorę szereg funkcji dla modelu, trenuję go i sprawdzam w podzbiorze Walidacja i szukam funkcji kosztu minimalnego po zmianie struktury. Kiedy go znalazłem, testuję model na podzbiorze Test. Jeśli już znalazłem funkcję minimalnego kosztu w podzbiorze sprawdzania poprawności, dlaczego miałbym go ponownie testować w podzbiorze testowym?
Czy ktoś mógłby mi to wyjaśnić?
Dziękuję Ci
Odpowiedzi:
źródło
Z powodu błędu losowego: zazwyczaj masz tylko skończoną liczbę przypadków.
Optymalizacja wydajności sprawdzania poprawności (testu wewnętrznego) oznacza, że możesz być nadmiernie dopasowany do tego zestawu testów wewnętrznych. Wewnętrzny zestaw testowy przyczynia się do oszacowania ostatecznego modelu, a zatem nie jest niezależny od modelu.
Oznacza to, że musisz mieć inny (zewnętrzny) zestaw testowy, który jest niezależny od całej procedury modelowania (w tym wszystkich procesów optymalizacji i wstępnego przetwarzania danych lub wyboru modelu), jeśli chcesz oszacować właściwości uogólniające.
Zalecam wykonanie symulacji i porównanie trzech różnych oszacowań błędów, jakie możesz mieć
mierzy dobroć dopasowania
W symulacji można łatwo porównać je również z odpowiednim, dużym, niezależnie generowanym zestawem testowym. Jeśli konfiguracja jest poprawna, test zewnętrzny powinien być bezstronny (w porównaniu z ocenianym modelem zastępczym, a nie w „ostatecznym” modelu zbudowanym na całym zestawie danych). Test wewnętrzny jest zwykle tendencyjnie tendencyjny, a resubstytucja jeszcze bardziej optymistycznie tendencyjny.
W mojej dziedzinie test wewnętrzny łatwo nie doceniłby błędu uogólnienia o współczynnik 2–5 (znacznie więcej w przypadku agresywnych schematów optymalizacji).
Uwaga: nomenklatura zestawów nie jest uniwersalna. W mojej dziedzinie (chemia analityczna) walidacja zwykle oznaczałaby dowód wykonania ostatecznej procedury - a więc bardziej to, co robi zestaw „testowy” niż to, co robi zestaw „walidacji”.
Dlatego wolę mówić o wewnętrznym i zewnętrznym zestawie testowym lub zestawie testowym optymalizacji (= wewnętrzny zestaw testowy), a wtedy zestaw sprawdzania poprawności oznaczałby zewnętrzny zestaw testowy.
źródło
Podczas szkolenia modelu należy wybrać meta parametry dla modelu (na przykład parametr regularyzacji) lub nawet wybrać kilka modeli. W tym przypadku podzbiór sprawdzania poprawności jest używany do wybierania parametrów, ale podzbiór testowy do ostatecznego oszacowania predykcji.
źródło