Podano wielkość próby „N”, której planuję użyć do prognozowania danych. Jakie są niektóre sposoby podziału danych, aby wykorzystać niektóre z nich do ustanowienia modelu, a pozostałe dane do zweryfikowania modelu?
Wiem, że nie ma czarno-białej odpowiedzi na to pytanie, ale byłoby interesujące znać pewne „ogólne zasady” lub zwykle używane proporcje. Wiem na uniwersytecie, jeden z naszych profesorów zwykł mawiać model na 60% i zatwierdzać na 40%.
źródło
To naprawdę zależy od ilości danych, które masz, konkretnego kosztu metod i tego, jak dokładnie chcesz osiągnąć swój wynik.
Kilka przykładów:
Jeśli masz mało danych, prawdopodobnie zechcesz skorzystać z weryfikacji krzyżowej (k-fold, out-one-out itp.) Twój model prawdopodobnie nie będzie wymagał dużych zasobów do trenowania i testowania. To dobry sposób na maksymalne wykorzystanie danych
Masz dużo danych: prawdopodobnie chcesz wziąć dość duży zestaw testowy, upewniając się, że będzie mało prawdopodobne, że niektóre dziwne próbki spowodują dużą zmienność wyników. Ile danych powinieneś wziąć? Zależy to całkowicie od twoich danych i modelu. Na przykład w rozpoznawaniu mowy, jeśli weźmiesz za dużo danych (powiedzmy 3000 zdań), twoje eksperymenty potrwają kilka dni, ponieważ współczynnik 7-10 w czasie rzeczywistym jest powszechny. Jeśli weźmiesz za mało, zależy to zbytnio od wybranych przez ciebie głośników (które nie są dozwolone w zestawie treningowym).
Pamiętaj również, że w wielu przypadkach dobrze jest mieć również zestaw sprawdzania poprawności / programowania!
źródło
Test 1:10: stosunek pociągów jest popularny, ponieważ wygląda na okrągły, 1: 9 jest popularny z powodu 10-krotnego CV, 1: 2 jest popularny, ponieważ jest również okrągły i ponownie składa pasek startowy. Czasami ktoś dostaje test na podstawie kryteriów specyficznych dla danych, na przykład w zeszłym roku na testy, lata wcześniej na szkolenie.
Ogólna zasada jest taka: pociąg musi być wystarczająco duży, aby dokładność nie spadła znacznie, a test musi być wystarczająco duży, aby wyciszyć przypadkowe fluktuacje.
Nadal wolę CV, ponieważ daje również rozkład błędów.
źródło
Jako rozszerzenie odpowiedzi typu k-fold, „zwykły” wybór k wynosi 5 lub 10. Metoda pomijania ma tendencję do tworzenia modeli, które są zbyt konserwatywne. Do Twojej wiadomości, oto odniesienie do tego faktu:
Shao, J. (1993), Linear Model Selection by Cross-Validation, Journal of American Statistics Association, t. 88, nr 422, s. 486–494
źródło