Często widzę ludzi mówiących o walidacji krzyżowej 5x2 jako szczególnym przypadku walidacji krzyżowej zagnieżdżonej .
Zakładam, że pierwsza liczba (tutaj: 5) odnosi się do liczby fałd w wewnętrznej pętli, a druga liczba (tutaj: 2) odnosi się do liczby fałd w zewnętrznej pętli? Czym zatem różni się to od „tradycyjnego” podejścia do wyboru i oceny modelu? Mam na myśli „tradycyjny”
- podziel zestaw danych na osobne szkolenie (np. 80%) i zestaw testowy
- użyj k-krotnej walidacji krzyżowej (np. k = 10) do strojenia hiperparametrów i wyboru modelu w zestawie treningowym
- ocenić wydajność uogólnienia wybranego modelu za pomocą zestawu testowego
Czy 5x2 nie jest dokładnie takie samo, z wyjątkiem tego, że zestaw testowy i treningowy mają taki sam rozmiar, jeśli k = 2?
Odpowiedzi:
5x2cv, o ile widziałem w literaturze, zawsze odnosi się do 5 powtórzeń 2-krotnego. W ogóle nie ma zagnieżdżenia. wykonaj 2-krotnie (podział 50/50 między pociągiem a testem), powtórz to jeszcze 4 razy. 5x2cv został spopularyzowany w artykule Przybliżone testy statystyczne do porównania nadzorowanych algorytmów uczenia się klasyfikacji przez Dietterich jako sposób na uzyskanie nie tylko dobrego oszacowania błędu uogólnienia, ale także dobrego oszacowania wariancji tego błędu (w celu przeprowadzenia testów statystycznych )
źródło
2 powtórzenia w zewnętrznej pętli oznaczają, że powtarzasz 5-krotnie CV 2 razy w całym zestawie pociągów. Za każdym razem podział na fałdy będzie inny.
Jest to używane głównie do lepszych oszacowań wydajności modelu, takich jak przeprowadzanie testów statystycznych, czy jeden model wykonuje statystycznie znacznie lepiej niż inny.
Zagnieżdżone CV nie ma krytycznego znaczenia, jeśli Twój zestaw danych jest duży i nie zawiera wartości odstających. Jeśli twoje dane mają wartości odstające, to skuteczność weryfikacji krzyżowej może być drastycznie różna w zależności od tego, w jakich fałdach / fałdach występują te wartości odstające. Dlatego powtarzasz CV kilka razy.
źródło