Podczas podziału moich oznaczonych danych na zestawy szkoleniowe, walidacyjne i testowe słyszałem wszystko od 50/25/25 do 85/5/10. Jestem pewien, że zależy to od tego, w jaki sposób zamierzasz używać swojego modelu i od tego, jak podatna jest na nadmierne dopasowanie algorytmu uczenia się. Czy istnieje sposób, aby zdecydować, czy to wszystko na zasadzie kciuka? Nawet ELSII wydaje się niejasny w tym temacie.
machine-learning
cross-validation
Ed Fine
źródło
źródło
Odpowiedzi:
Walidacja podzielonej próbki bez ponownego próbkowania (walidacja krzyżowa lub lepiej: ładowanie początkowe) jest niewiarygodna, chyba że masz ogromną próbkę (np.N.> 20000 ). Zwykle preferowane jest rygorystyczne sprawdzanie poprawności za pomocą ładowania początkowego, zakładając, że zaprogramujesz wszystkie etapy wyboru modelu, aby można je było powtarzać w każdej pętli ładowania początkowego. Jednym z problemów z podejściami do próby podzielonej, oprócz zmienności, jest trudność w wyborze frakcji podzielonych.
źródło
W zależności od aplikacji możesz prawdopodobnie pominąć niepewność i zamiast tego użyć ładowania początkowego.
Wiki: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
Powiązane pytanie tutaj. Opis ładowania początkowego do sprawdzania poprawności i wyboru modelu
źródło
Oczywiście musisz także zdecydować o proporcjach podziału dla (podwójnego) ponownego próbkowania ...
Jednak, jeśli pamiętasz, ponowne próbkowanie zwykle działa dla całkiem szerokiego zakresu współczynników podziału
Co możesz zrobić, jeśli nie masz pewności, czy konieczne jest ponowne próbkowanie: kilka razy próbkuj ponownie. Wystarczy, abyś mógł zmierzyć, czy konieczne było ponowne próbkowanie.
Dzięki tym wynikom możesz zdecydować, czy powinieneś dodać więcej iteracji ponownego próbkowania, czy też wszystko jest w porządku.
źródło
Nie ma na to twardej i szybkiej reguły. Ale analiza empiryczna wykazała, że im więcej danych treningowych posiadasz, tym lepsza będzie Twoja dokładność. Ale cokolwiek zrobisz, nie zapomnij zebrać wszystkich swoich danych treningowych / walidacyjnych / testowych i zrób 10-krotne CV podczas podsumowywania. Daje to bardzo dobry wgląd w problem z przeregulowaniem / niedopasowaniem podczas eksperymentu.
źródło
Myślę, że to wszystko ma znaczenie, na które pytania próbujesz odpowiedzieć. Czy interesuje Cię dokładny obraz różnicy wydajności między wieloma algorytmami? Następnie potrzebujesz dość dużego zestawu sprawdzania poprawności. Czy jesteś zainteresowany wydajnością algorytmu dla N = 10000 próbek? Następnie należy umieścić co najmniej 10000 próbek w zestawie pociągów.
Większy zestaw sprawdzania poprawności daje większą statystyczną pewność co do twoich wyników, ale pewność dotyczy wydajności algorytmu, który został przeszkolony na mniejszej liczbie próbek, co może nie być tym, czego szukasz w końcu.
źródło