Wiem, że przeprowadzanie strojenia hiperparametrów poza walidacją krzyżową może prowadzić do stronniczo wysokich oszacowań zewnętrznej ważności, ponieważ zestaw danych używany do mierzenia wydajności jest taki sam, jak użyty do dostrojenia funkcji.
Zastanawiam się, jak poważny jest to problem . Rozumiem, jak źle byłoby przy wyborze funkcji, ponieważ daje to ogromną liczbę parametrów do dostrojenia. Ale co, jeśli używasz czegoś takiego jak LASSO (który ma tylko jeden parametr, siła regularyzacji) lub losowy las bez wyboru funkcji (który może mieć kilka parametrów, ale nic tak dramatycznego, jak dodawanie / upuszczanie funkcji hałasu)?
Jak bardzo optymistycznie można się spodziewać w tych scenariuszach, że szacuje się błąd szkolenia?
Byłbym wdzięczny za wszelkie informacje na ten temat - studia przypadków, dokumenty, anegdaty itp. Dzięki!
EDYCJA: Aby wyjaśnić, nie mówię o szacowaniu wydajności modelu na danych treningowych (tj. W ogóle nie stosuję weryfikacji krzyżowej). Przez „dostrajanie hiperparametrów poza walidacją krzyżową” mam na myśli stosowanie walidacji krzyżowej tylko do oszacowania wydajności każdego indywidualnego modelu, ale nie obejmuje zewnętrznej, drugiej pętli walidacji krzyżowej w celu skorygowania nadmiernego dopasowania w ramach procedury dostrajania hiperparametrów (w odróżnieniu od nadmierne dopasowanie podczas procedury treningowej). Zobacz np . Odpowiedź tutaj .
źródło
Każdy złożony algorytm uczenia się, taki jak SVM, sieci neuronowe, losowy las, ... może osiągnąć 100% dokładności szkolenia, jeśli na to pozwolisz (na przykład przez słabą / brak regularyzacji), z absolutnie okropną wydajnością generalizacji.
Krótko mówiąc, możesz łatwo skończyć z doskonałym klasyfikatorem w zestawie treningowym, który nauczył się absolutnie niczego przydatnego na niezależnym zestawie testowym. Tak to jest złe.
źródło