Jak wiesz, istnieją dwa popularne typy walidacji krzyżowej, K-fold i losowe podpróbkowanie (jak opisano w Wikipedii ). Wiem jednak, że niektórzy badacze tworzą i publikują artykuły, w których coś, co jest określane jako CV składane w K, jest rzeczywiście przypadkowym podpróbkowaniem, więc w praktyce nigdy nie wiesz, co tak naprawdę jest w czytanym artykule.
Zwykle oczywiście różnica jest niezauważalna, podobnie jak moje pytanie - czy możesz pomyśleć o przykładzie, w którym wynik jednego rodzaju różni się znacznie od drugiego?
9
Nie jestem wcale pewien, czy różnica jest niezauważalna i że tylko w przykładzie ad hoc będzie to zauważalne. Zarówno metody walidacji krzyżowej, jak i ładowania początkowego (podpróbkowania) zależą krytycznie od ich parametrów projektowych, a zrozumienie to nie jest jeszcze kompletne. Zasadniczo wyniki w ramach krzyżowej walidacji k-fold zależą krytycznie od liczby fałd, więc zawsze można spodziewać się innych wyników niż w przypadku podpróbkowania.
Przykład: powiedz, że masz prawdziwy model liniowy ze stałą liczbą parametrów. Jeśli użyjesz k-krotnej walidacji krzyżowej (z danym, ustalonym k) i pozwolisz, aby liczba obserwacji spadła do nieskończoności, walidacja krzyżowa k-krotna będzie asymptotycznie niespójna przy wyborze modelu, tj. Zidentyfikuje niepoprawny model z prawdopodobieństwo większe niż 0. Ten zaskakujący wynik jest spowodowany przez Jun Shao, „Linear Model Selection by Cross-Validation”, Journal of American Statistics Association , 88 , 486-494 (1993), ale więcej artykułów można znaleźć w tym stylu.
Ogólnie rzecz biorąc, szanowane prace statystyczne określają protokół weryfikacji krzyżowej, właśnie dlatego, że wyniki nie są niezmienne. W przypadku wybrania dużej liczby zagięć dla dużych zestawów danych, zauważają i próbują skorygować odchylenia w wyborze modelu.
źródło