Pomijając rozważania dotyczące mocy obliczeniowej, czy istnieją jakiekolwiek powody, by sądzić, że zwiększenie liczby fałdów w walidacji krzyżowej prowadzi do lepszego wyboru / walidacji modelu (tj. Że im wyższa liczba fałdów, tym lepiej)?
Mówiąc skrajnie, czy wykluczająca się krzyżowa walidacja niekoniecznie prowadzi do lepszych modeli niż krzyżowa walidacja -krotnie?
Podstawowe informacje o tym pytaniu: pracuję nad problemem w bardzo niewielu przypadkach (np. 10 pozytywnych i 10 negatywnych) i obawiam się, że moje modele mogą nie uogólniać się dobrze / nie pasowałyby do tak małej ilości danych.
cross-validation
bias-variance-tradeoff
Amelio Vazquez-Reina
źródło
źródło
Odpowiedzi:
Weryfikacja krzyżowa z pominięciem jednego z reguły nie prowadzi do lepszej wydajności niż K-krotnie i jest bardziej prawdopodobne, że będzie gorsza , ponieważ ma względnie dużą wariancję (tj. Jej wartość zmienia się bardziej dla różnych próbek danych niż wartość dla k-krotna walidacja krzyżowa). Jest to złe w kryterium wyboru modelu, ponieważ oznacza, że kryterium wyboru modelu można zoptymalizować w taki sposób, aby po prostu wykorzystać losową zmienność w określonej próbce danych, zamiast wprowadzać rzeczywistej poprawy wydajności, tzn. Istnieje większe prawdopodobieństwo, że nadmiernie się dopasujesz kryterium wyboru modelu. Powodem, dla którego w praktyce stosowana jest walidacja krzyżowa z pominięciem jednego, jest to, że dla wielu modeli można ją bardzo tanio ocenić jako produkt uboczny dopasowania modelu.
Jeśli koszt obliczeniowy nie jest przede wszystkim problemem, lepszym podejściem jest wykonanie powtarzanej k-krotnej walidacji krzyżowej, w której k-krotna procedura walidacji krzyżowej jest powtarzana z różnymi losowymi partycjami do k rozłącznych podzbiorów za każdym razem. To zmniejsza wariancję.
Jeśli masz tylko 20 wzorców, bardzo prawdopodobne jest, że spotkasz się z nadmiernym dopasowaniem kryterium wyboru modelu, co jest znacznie zaniedbaną pułapką w statystykach i uczeniu maszynowym (bezwstydna wtyczka: patrz mój artykuł na ten temat). Lepiej jest wybrać stosunkowo prosty model i starać się nie optymalizować go bardzo agresywnie lub zastosować podejście bayesowskie i średnią dla wszystkich wyborów modelu, ważone ich wiarygodnością. Optymalizacja IMHO jest źródłem wszelkiego zła w statystykach, więc lepiej nie optymalizować, jeśli nie musisz, i optymalizować ostrożnie za każdym razem, gdy to robisz.
Uwaga: jeśli zamierzasz dokonać wyboru modelu, musisz użyć czegoś takiego jak zagnieżdżone sprawdzanie poprawności krzyżowej, jeśli potrzebujesz również oszacowania wydajności (tj. Musisz rozważyć wybór modelu jako integralną część procedury dopasowania modelu i zweryfikować krzyżowo, że także).
źródło
Wybór liczby K składa się na podstawie krzywej uczenia się
Intuicyjna wizualizacja na przykładzie zabawki
Aby zrozumieć ten argument wizualnie, rozważ następujący przykład zabawki, w którym dopasowujemy wielomian stopnia 4 do hałaśliwej krzywej sinusoidalnej:
Omawianie argumentu
Wydajność modelu znacznie się poprawia wraz ze wzrostem wielkości treningu do 50 obserwacji. Zwiększenie liczby do 200, na przykład, przynosi tylko niewielkie korzyści. Rozważ następujące dwa przypadki:
[Aktualizacja] - Komentarze do metodologii
Kod tej symulacji można znaleźć tutaj . Podejście było następujące:
Alternatywnym podejściem jest nie ponowne próbkowanie nowego zestawu danych przy każdej iteracji i zamiast tego ponowne tasowanie tego samego zestawu danych za każdym razem. Wydaje się, że daje to podobne wyniki.
źródło