Ostatnio natknąłem się na artykuł, który proponuje użycie klasyfikatora k-NN w określonym zbiorze danych. Autorzy wykorzystali wszystkie dostępne próbki danych, aby przeprowadzić k-krotną weryfikację krzyżową dla różnych wartości k i zgłosić wyniki walidacji krzyżowej najlepszej konfiguracji hiperparametrów.
Według mojej wiedzy wynik ten jest stronniczy i powinni zachować osobny zestaw testowy, aby uzyskać oszacowanie dokładności próbek nieużywanych do optymalizacji hiperparametrów.
Czy mam rację? Czy możesz podać jakieś referencje (najlepiej artykuły z badań), które opisują to niewłaściwe użycie walidacji krzyżowej?
cross-validation
references
model-selection
model-evaluation
Daniel López
źródło
źródło
Odpowiedzi:
Tak, występują problemy z raportowaniem tylko wyników k-krotnie CV. Możesz wykorzystać np. Następujące trzy publikacje do swoich celów (choć oczywiście jest ich więcej), aby wskazać ludziom właściwy kierunek:
Varma & Simon (2006). „Błąd systematyczny w szacowaniu błędów podczas korzystania z weryfikacji krzyżowej przy wyborze modelu.” BMC Bioinformatics , 7: 91
Cawley i Talbot (2010). „O nadmiernym dopasowaniu przy wyborze modelu i późniejszym odchyleniu wyboru w ocenie wydajności”. Journal of Machine Learning Research , 11: 2079-2107
Bengio i Grandvalet (2004). „Brak bezstronnego estymatora wariancji krzyżowej Fold Validation”. Journal of Machine Learning Research , 5: 1089–1105K
Osobiście lubię te, ponieważ starają się przedstawić te kwestie bardziej zwykłym angielskim niż matematyką.
źródło