Jak wybrać rozmiar zestawu szkoleniowego, walidacji krzyżowej i zestawu testowego dla danych o małej próbce?

10

Załóżmy, że mam małą próbkę, np. N = 100, i dwie klasy. Jak wybrać rozmiar zestawu szkoleniowego, walidacyjnego i testowego do uczenia maszynowego?

Intuicyjnie wybrałbym

  • Rozmiar zestawu treningowego wynosi 50
  • Zestaw do walidacji krzyżowej rozmiar 25 i
  • Rozmiar testowy wynosi 25.

Ale prawdopodobnie ma to mniej lub bardziej sens. Jak naprawdę zdecydować o tych wartościach? Czy mogę wypróbować różne opcje (choć myślę, że nie jest to tak preferowane ... większa możliwość ponaduczenia się)?

Co jeśli miałbym więcej niż dwie klasy?

est
źródło
2
100 jest dla mnie za małe. Zdecydowałbym się na strategię jednoznaczną zarówno dla walidacji krzyżowej, jak i oceny testów.
Memming
Nie widziałem żadnej literatury na ten temat (minimalne rozmiary próbek do walidacji). Nie pewny dlaczego. Wydaje się to ważną kwestią.
Charles

Odpowiedzi:

15
cbeleites niezadowoleni z SX
źródło
+1 wyłącznie za porady dotyczące optymalizacji parametrów i złożoności modelu. ale wszystkie te porady są fantastyczne.
Charles
1

Biorąc pod uwagę, że twoja próbka jest niewielka, dobrą praktyką byłoby pominięcie sekcji weryfikacji krzyżowej i zastosowanie współczynnika 60–40 lub 70–30.

Jak widać w sekcji 2.8 Wstępu do Clementine i Data Mining, a także w Bibliotece MSDN - Data Mining - Zestawy szkoleniowe i testowe współczynnik 70-30 jest powszechny. Według wykładów Machine Learning Andrew Ng zalecany jest stosunek 60 - 20 - 20.

Mam nadzieję, że byłam pomocna. Z poważaniem.

mrdatamx
źródło