Mamy zestaw próbek biologicznych, których uzyskanie było dość drogie. Przekazujemy te próbki przez serię testów w celu wygenerowania danych, które są wykorzystywane do budowy modelu predykcyjnego. W tym celu podzieliliśmy próbki na zestawy szkoleniowe (70%) i testowe (30%). Z powodzeniem stworzyliśmy model i zastosowaliśmy go na zestawie testowym, aby odkryć, że wydajność była „niższa niż optymalna”. Eksperymentaliści chcą teraz ulepszyć testy biologiczne, aby stworzyć lepszy model. Pod warunkiem, że nie możemy uzyskać nowych próbek, czy sugerujesz nam ponowne przetasowanie próbek w celu utworzenia nowych zestawów szkoleniowych i walidacyjnych lub trzymanie się pierwotnego podziału. (Nie mamy żadnych wskazówek, że podział był problematyczny).
9
Odpowiedzi:
Ponieważ korzystasz już z próby wstrzymania, powiedziałbym, że powinieneś ją zachować i zbudować nowe modele na tej samej próbce treningowej, aby wszystkie modele uwzględniały te same relacje między funkcjami. Ponadto, jeśli dokonasz wyboru funkcji, próbki należy pominąć przed którymkolwiek z tych etapów filtrowania; to znaczy, wybór funkcji musi być zawarty w pętli weryfikacji krzyżowej.
Warto zauważyć, że istnieją bardziej wydajne metody wyboru podziału niż 0,67 / 0,33, a mianowicie k-krotna walidacja krzyżowa lub pomijanie. Patrz np . Elementy uczenia statystycznego (§7.10, s. 241–248), www.modelselection.org lub Badanie procedur walidacji krzyżowej dla wyboru modelu przez Arlot i Celisse (wymagane bardziej zaawansowane zaplecze matematyczne).
źródło