Załóżmy, że mam małą próbkę, np. N = 100, i dwie klasy. Jak wybrać rozmiar zestawu szkoleniowego, walidacyjnego i testowego do uczenia maszynowego?
Intuicyjnie wybrałbym
- Rozmiar zestawu treningowego wynosi 50
- Zestaw do walidacji krzyżowej rozmiar 25 i
- Rozmiar testowy wynosi 25.
Ale prawdopodobnie ma to mniej lub bardziej sens. Jak naprawdę zdecydować o tych wartościach? Czy mogę wypróbować różne opcje (choć myślę, że nie jest to tak preferowane ... większa możliwość ponaduczenia się)?
Co jeśli miałbym więcej niż dwie klasy?
Odpowiedzi:
Z pewnością znalazłeś bardzo podobne pytanie: Wybór K w K-krotnie walidacji krzyżowej ?
(Łącznie z linkiem do pracy Rona Kohaviego)
Co ciekawe, przy tych problemach z klasyfikacją bardzo małych próbek walidacja jest często trudniejsza (pod względem potrzeb dotyczących wielkości próby) w porównaniu ze szkoleniem przyzwoitego modelu. Jeśli potrzebujesz literatury na ten temat, zobacz np. Nasz artykuł na temat planowania wielkości próby:
Beleites, C. and Neugebauer, U. i Bocklitz, T. and Krafft, C. and Popp, J .:
Planowanie wielkości próby dla modeli klasyfikacji. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
zaakceptowano manuskrypt na arXiv: 1211.1323
Kolejną ważną kwestią jest dobre wykorzystanie możliwości iteracji / powtórzenia walidacji krzyżowej (co jest jednym z powodów przeciwko LOO): pozwala to zmierzyć stabilność prognoz w odniesieniu do zaburzeń (tj. Kilku różnych przypadków) treningu dane.
Literatura:
DOI: 10.1007 / s00216-007-1818-6
DOI: 10.1016 / j.chemolab.2009.07.016
Jeśli zdecydujesz się na pojedyncze uruchomienie zestawu testowego wstrzymania (bez iteracji / powtórzeń),
źródło
Biorąc pod uwagę, że twoja próbka jest niewielka, dobrą praktyką byłoby pominięcie sekcji weryfikacji krzyżowej i zastosowanie współczynnika 60–40 lub 70–30.
Jak widać w sekcji 2.8 Wstępu do Clementine i Data Mining, a także w Bibliotece MSDN - Data Mining - Zestawy szkoleniowe i testowe współczynnik 70-30 jest powszechny. Według wykładów Machine Learning Andrew Ng zalecany jest stosunek 60 - 20 - 20.
Mam nadzieję, że byłam pomocna. Z poważaniem.
źródło