Czy wdrożenie weryfikacji krzyżowej wpływa na jej wyniki?

9

Jak wiesz, istnieją dwa popularne typy walidacji krzyżowej, K-fold i losowe podpróbkowanie (jak opisano w Wikipedii ). Wiem jednak, że niektórzy badacze tworzą i publikują artykuły, w których coś, co jest określane jako CV składane w K, jest rzeczywiście przypadkowym podpróbkowaniem, więc w praktyce nigdy nie wiesz, co tak naprawdę jest w czytanym artykule.
Zwykle oczywiście różnica jest niezauważalna, podobnie jak moje pytanie - czy możesz pomyśleć o przykładzie, w którym wynik jednego rodzaju różni się znacznie od drugiego?


źródło

Odpowiedzi:

4

Z pewnością możesz uzyskać różne wyniki po prostu dlatego, że trenujesz na różnych przykładach. Bardzo wątpię, że istnieje algorytm lub dziedzina problemowa, w której wyniki tych dwóch różnią się w jakiś przewidywalny sposób.

bmargulies
źródło
Miałem na myśli znacząco różne wyniki. Myślę też, że nie ma takiego, przynajmniej rzeczywistego przykładu. Mimo to myślę, że poczekam jeszcze trochę.
3

Zwykle oczywiście różnica jest niezauważalna, podobnie jak moje pytanie - czy możesz pomyśleć o przykładzie, w którym wynik jednego rodzaju różni się znacznie od drugiego?

Nie jestem wcale pewien, czy różnica jest niezauważalna i że tylko w przykładzie ad hoc będzie to zauważalne. Zarówno metody walidacji krzyżowej, jak i ładowania początkowego (podpróbkowania) zależą krytycznie od ich parametrów projektowych, a zrozumienie to nie jest jeszcze kompletne. Zasadniczo wyniki w ramach krzyżowej walidacji k-fold zależą krytycznie od liczby fałd, więc zawsze można spodziewać się innych wyników niż w przypadku podpróbkowania.

Przykład: powiedz, że masz prawdziwy model liniowy ze stałą liczbą parametrów. Jeśli użyjesz k-krotnej walidacji krzyżowej (z danym, ustalonym k) i pozwolisz, aby liczba obserwacji spadła do nieskończoności, walidacja krzyżowa k-krotna będzie asymptotycznie niespójna przy wyborze modelu, tj. Zidentyfikuje niepoprawny model z prawdopodobieństwo większe niż 0. Ten zaskakujący wynik jest spowodowany przez Jun Shao, „Linear Model Selection by Cross-Validation”, Journal of American Statistics Association , 88 , 486-494 (1993), ale więcej artykułów można znaleźć w tym stylu.

Ogólnie rzecz biorąc, szanowane prace statystyczne określają protokół weryfikacji krzyżowej, właśnie dlatego, że wyniki nie są niezmienne. W przypadku wybrania dużej liczby zagięć dla dużych zestawów danych, zauważają i próbują skorygować odchylenia w wyborze modelu.

niezadowolony
źródło
Nie, nie, nie, chodzi o uczenie maszynowe, a nie wybór modelu.
1
Ciekawe wyróżnienie. Myślałem, że wybór modelu był kluczowy dla uczenia maszynowego, w prawie wszystkich znaczeniach tego terminu.
szczęśliwy
Wszystkie te rzeczy działają w przypadku trywialnych (głównie liniowych) modeli, gdy masz niewiele parametrów i chcesz dopasować je do danych, aby coś o tym powiedzieć, np. Masz y i x, a chcesz sprawdzić, czy y = x ^ 2 lub y = x. Mówię tutaj o oszacowaniu błędu modeli takich jak SVM lub RF, które mogą mieć tysiące parametrów i nadal nie są przeregulowane z powodu złożonej heurystyki.
Wyniki te dotyczą regresji ogólnych modeli liniowych z dowolną liczbą zmiennych niezależnych. Zmienne mogą być dowolnymi uczniami. Kluczowym założeniem jest to, że ponieważ liczba obserwacji zbliża się do nieskończoności, liczba uczniów opisujących prawdziwy model pozostaje skończona. Wszystko to działa na regresję, więc dla zadania klasyfikacyjnego takiego jak twoje nie jestem pewien, czy to pomaga.
szczęśliwy
To nie; GLM nie jest uczeniem maszynowym. Prawdziwe metody uczenia maszynowego są wystarczająco mądre, aby utrzymać ich poziom złożoności niezależnie od rosnącej liczby obiektów (jeśli jest to oczywiście wystarczające); nawet w przypadku modeli liniowych cała teoria działa dość źle, ponieważ zbieżność jest niska.