Przeprowadzam zagnieżdżoną weryfikację krzyżową. Czytałem, że krzyżowa walidacja z pominięciem jednego może być stronnicza (nie pamiętam dlaczego).
Czy lepiej jest używać 10-krotnej walidacji krzyżowej czy pomijanej walidacji krzyżowej oprócz dłuższego czasu wykonywania dla krzyżowej walidacji pomijanej?
machine-learning
cross-validation
maszyneria
źródło
źródło
Odpowiedzi:
Wystarczy dodać nieco do odpowiedzi @SubravetiSuraj (+1)
Walidacja krzyżowa daje pesymistycznie tendencyjne oszacowanie wydajności, ponieważ większość modeli statystycznych poprawi się, jeśli zestaw szkoleniowy zostanie powiększony. Oznacza to, że k-krotna walidacja krzyżowa szacuje wydajność modelu wyuczonego na zbiorze danych 100 * (k-1) / k% dostępnych danych, a nie na 100% tych danych. Jeśli więc przeprowadzisz walidację krzyżową w celu oszacowania wydajności, a następnie użyjesz modelu wyszkolonego na wszystkich danych do użytku operacyjnego, będzie on działał nieco lepiej niż sugeruje to ocena szacunkowa.
Weryfikacja krzyżowa z pominięciem jednego jest w przybliżeniu bezstronna , ponieważ różnica w wielkości między zestawem szkoleniowym stosowanym w każdym foldowaniu a całym zestawem danych jest tylko jednym wzorcem. Jest na ten temat artykuł Luntza i Brailowskiego (po rosyjsku).
Luntz, Aleksandr i Viktor Brailovsky. „O oszacowaniu znaków uzyskanych w statystycznej procedurze uznania.” Technicheskaya Kibernetica 3.6 (1969): 6-12.
Zobacz też
Szacowanie poziomów błędu w analizie dyskryminacyjnej Peter A. Lachenbruch i M. Ray Mickey Technometrics vol. 10, Iss. 1,1968
Jednakże, chociaż weryfikacja krzyżowa z pominięciem jednego z nich jest w przybliżeniu bezstronna, zwykle wykazuje dużą wariancję (więc otrzymujesz bardzo różne szacunki, jeśli powtórzysz oszacowanie z różnymi początkowymi próbkami danych z tego samego rozkładu). Ponieważ błąd estymatora jest kombinacją odchylenia i wariancji, to, czy lepsza krzyżowa walidacja z pominięciem jednego jest lepsza niż 10-krotna walidacja krzyżowa, zależy od obu wielkości.
Teraz wariancja dopasowania modelu jest zwykle większa, jeśli jest on dopasowany do małego zestawu danych (ponieważ jest bardziej wrażliwy na wszelkie artefakty związane z hałasem / próbkowaniem w konkretnej zastosowanej próbce szkoleniowej). Oznacza to, że 10-krotna walidacja krzyżowa może mieć dużą wariancję (a także wyższą stronniczość), jeśli masz tylko ograniczoną ilość danych, ponieważ rozmiar zestawu treningowego będzie mniejszy niż dla LOOCV. Tak więc k-krotnie weryfikacja krzyżowa może również powodować problemy z wariancją, ale z innego powodu. Właśnie dlatego LOOCV jest często lepszy, gdy rozmiar zestawu danych jest mały.
Jednak moim zdaniem głównym powodem użycia LOOCV jest to, że jest niedrogie obliczeniowo w przypadku niektórych modeli (takich jak regresja liniowa, większość metod jądra, klasyfikatory najbliższych sąsiadów itp.), I chyba że zestaw danych byłby bardzo mały, użyłbym 10-krotna walidacja krzyżowa, jeśli mieści się w moim budżecie obliczeniowym, lub jeszcze lepiej, oszacowanie bootstrap i workowanie.
źródło
Moim zdaniem, pomiń jedną walidację krzyżową, lepiej gdy masz mały zestaw danych treningowych. W takim przypadku nie można tak naprawdę wykonać 10-krotności, aby przewidzieć wykorzystanie pozostałej części danych do szkolenia modelu.
Jeśli z drugiej strony dysponujesz dużą ilością danych treningowych, lepszym rozwiązaniem byłaby 10-krotna walidacja krzyżowa, ponieważ będzie zbyt wiele iteracji, aby pominąć jedną walidację krzyżową, a rozważenie tych wielu wyników w celu dostrojenia hiperparametrów może nie być takim dobrym pomysłem.
Według ISL, zawsze występuje kompromis wariancji odchylenia między robieniem jednego pomijania a k-krotnym sprawdzaniem poprawności. W LOOCV (zostaw jedno CV) otrzymujesz oszacowania błędu testu z mniejszym odchyleniem i wyższą wariancją, ponieważ każdy zestaw treningowy zawiera przykłady n-1, co oznacza, że używasz prawie całego zestawu treningowego w każdej iteracji. Prowadzi to również do większej wariancji, ponieważ zestawy treningowe nakładają się na siebie, a zatem oszacowania błędu testu są wysoce skorelowane, co oznacza, że średnia wartość oszacowania błędu testu będzie miała większą wariancję.
Przeciwnie, prawda jest w przypadku k-krotnego CV, ponieważ zestawy treningowe nakładają się stosunkowo mniej, dlatego oszacowania błędu testu są mniej skorelowane, w wyniku czego średnia wartość błędu testu nie będzie miała tak dużej wariancji jak LOOCV.
źródło