Zadaj statystykowi dowolne pytanie, a ich odpowiedź będzie jakąś formą „to zależy”.
To zależy . Oprócz rodzaju modelu (dobre punkty cbeleites!), Liczby punktów treningowych i liczby predyktorów? Jeśli model jest przeznaczony do klasyfikacji, duża nierównowaga klasy spowodowałaby, że zwiększyłbym liczbę powtórzeń. Ponadto, jeśli ponownie próbkuję procedurę wyboru funkcji, skłoniłbym się do większej liczby próbek.
W przypadku każdej metody ponownego próbkowania zastosowanej w tym kontekście należy pamiętać, że (w przeciwieństwie do klasycznego ładowania początkowego) wystarczy tylko tyle iteracji, aby uzyskać „wystarczająco dokładną” ocenę średniej rozkładu. To jest subiektywne, ale jakakolwiek odpowiedź będzie.
Trzymając się klasyfikacji z dwiema klasami na sekundę, załóżmy, że oczekujesz / masz nadzieję, że dokładność modelu wyniesie około 0,80. Ponieważ proces ponownego próbkowania polega na próbkowaniu oszacowania dokładności (powiedzmy p
), standardowym błędem byłoby sqrt[p*(1-p)]/sqrt(B)
gdzie B
jest liczba próbek . Ponieważ B = 10
standardowy błąd dokładności wynosi około 0,13, a wraz z B = 100
nim około 0,04. Możesz użyć tej formuły jako przybliżonego przewodnika dla tego konkretnego przypadku.
Weź również pod uwagę, że w tym przykładzie wariancja dokładności jest zmaksymalizowana, im bardziej zbliżasz się do 0,50, więc dokładny model powinien wymagać mniejszej liczby powtórzeń, ponieważ standardowy błąd powinien być mniejszy niż modele słabo uczące się.
HTH,
Max