Mam kilka modeli predykcyjnych, których wydajność chciałbym przetestować ponownie (tj. Zabrać mój zestaw danych, „przewinąć” go do poprzedniego momentu i zobaczyć, jak ten model działałby prospektywnie).
Problem polega na tym, że niektóre z moich modeli zostały zbudowane w procesie interaktywnym. Na przykład, zgodnie z zaleceniami Strategii modelowania regresji Franka Harrella , w jednym modelu użyłem ograniczonych sześciennych splajnów, aby obsłużyć możliwe nieliniowe powiązania między cechami a odpowiedzią. Przydzieliłem stopnie swobody każdego splajnu w oparciu o połączenie wiedzy dziedzinowej i jednowymiarowych miar siły asocjacji. Ale stopnie swobody, na które chcę pozwolić mojemu modelowi, oczywiście zależą od wielkości zestawu danych, który różni się dramatycznie podczas testowania wstecznego. Jeśli nie chcę ręcznie wybierać stopni swobody osobno dla każdego testu, w którym model jest testowany, jakie są inne opcje?
Dla innego przykładu, obecnie pracuję nad wykrywaniem wartości odstających poprzez znajdowanie punktów o dużej dźwigni. Gdybym był szczęśliwy, mogąc to zrobić ręcznie, po prostu spojrzałbym na każdy punkt danych o dużej dźwigni, sprawdzał poczytalność, czy dane są czyste, i albo je odfiltrowałem, albo wyczyściłem ręcznie. Ale zależy to od wiedzy z zakresu domen, więc nie wiem, jak zautomatyzować ten proces.
Byłbym wdzięczny za porady i rozwiązania zarówno (a) dotyczące ogólnego problemu automatyzacji interaktywnych części procesu budowania modelu, lub (b) szczegółowe porady dotyczące tych dwóch przypadków. Dzięki!
źródło
Zamiast próbować dowiedzieć się, jak zautomatyzować wysiłki związane z ręcznym dostrajaniem modelu, omijałbym ten problem razem, patrząc na osoby uczące się o mniejszej wariancji, które wymagają znacznie mniejszego dostrajania, nawet jeśli wiąże się to ze zwiększonym obciążeniem modelu. Chcesz mieć zaufanie do swoich wyników weryfikacji historycznej, co w dużej mierze sprowadza się do niskiej wariancji próbkowania w twoich prognozach, a wprowadzenie procesu automatycznego dostrajania u ucznia, który już ma wariancję próbkowania, działa wbrew temu celowi. Może się wydawać, że ogon macha tu psem, ale wszystko, co wymaga dużo starannego strojenia (manualnego lub automatycznego), nie jest doskonałym kandydatem do naprawdę uczciwego środowiska testowania wstecznego IMO.
źródło