Pytania oznaczone «out-of-sample»

Odnosi się do praktyki oceniania wydajności modelu na pewnym zbiorze danych „testowych”, „wstrzymanych” lub „spoza próby”, które nie zostały wykorzystane do budowy modelu.

11
Jaki jest najbardziej odpowiedni sposób na utworzenie zestawu podtrzymującego: aby usunąć niektóre przedmioty lub usunąć niektóre obserwacje z każdego przedmiotu?

Mam zestaw danych z 26 funkcjami i 31000 wierszami. Jest to zbiór danych 38 podmiotów. To jest dla systemu biometrycznego. Więc chcę być w stanie zidentyfikować podmioty. Aby mieć zestaw testowy, wiem, że muszę usunąć niektóre wartości. Więc co lepiej robić i dlaczego? (a) trzymaj 30 osób jako...