Opis ładowania początkowego do sprawdzania poprawności i wyboru modelu

13

Wydaje mi się, że rozumiem, jak działają podstawy ładowania początkowego , ale nie jestem pewien, czy rozumiem, jak mogę użyć ładowania początkowego do wyboru modelu lub uniknąć nadmiernego dopasowania.

Na przykład, aby wybrać model, czy po prostu wybierzesz model, który daje najniższy błąd (może wariancję?) We wszystkich próbkach ładowania początkowego?

Czy są jakieś teksty, które dyskutują o tym, jak używać ładowania początkowego do wyboru lub weryfikacji modelu?

EDYCJA: Zobacz ten wątek i odpowiedź @ mark999, aby uzyskać więcej kontekstu za tym pytaniem.

Amelio Vazquez-Reina
źródło
@ suncoolsu Jeśli mam do wyboru model A, B i C, zwykle wybieram model za pomocą walidacji krzyżowej lub ładowania początkowego, gdy 1) Jestem zainteresowany dokładnością / rankingiem prognoz i 2) Nie mam wystarczających danych, aby się utrzymać zestaw sprawdzania poprawności. Dlaczego nie byłby to dobry pomysł (i wiem, że sprawdzanie zagnieżdżenia jest ważne przy wyborze funkcji itp.).
B_Miner
Odpowiedź @ mark999 w tym wątku sugeruje walidację bootstrap jako rozwiązanie do nauki modelu na pełnym zbiorze danych, wciąż radząc sobie z nadmiernym dopasowaniem. Ta odpowiedź w dużej mierze zainspirowała to pytanie, a pierwotne pytanie w tym wątku powinno również dodać kontekst do tego pytania.
Amelio Vazquez-Reina,
1
Przykro mi - prawdopodobnie to ja jestem statystykiem - ale myślę, że cross-validation i bootstrap to dwie różne rzeczy. Walidacja krzyżowa jest świetna i musi zostać wykonana (a także bootstrap). Ale jeśli jesteś w scenariuszach takich jak wybór między A, B, C (tylko trzy modele), BIC może być lepszym wyborem. Jak powiedziałem, rozwiązanie zależy od rodzaju problemu i odpowiednie może być kilka podejść.
suncoolsu,
2
AIC ogólnie daje mniej niedostateczne wyniki niż BIC.
Frank Harrell,

Odpowiedzi:

14

Najpierw musisz zdecydować, czy naprawdę potrzebujesz wyboru modelu, czy po prostu musisz modelować. W większości sytuacji, w zależności od wymiarów, preferowane jest dopasowanie elastycznego modelu kompleksowego.

Bootstrap to świetny sposób na oszacowanie wydajności modelu. Najprostszą rzeczą do oszacowania jest wariancja. Bardziej do twojego pierwotnego punktu, bootstrap może oszacować prawdopodobną przyszłą wydajność danej procedury modelowania na nowych danych, które nie zostały jeszcze zrealizowane.

Jeśli używasz resampling (bootstrap lub walidacji krzyżowej), aby wybrać parametry dostrajania modelu i oszacować model, będziesz potrzebował podwójnego bootstrapu lub zagnieżdżonej weryfikacji krzyżowej.

Zasadniczo bootstrap wymaga mniej dopasowania modelu (często około 300) niż walidacja krzyżowa (10-krotna walidacja krzyżowa powinna zostać powtórzona 50-100 razy dla stabilności).

Niektóre badania symulacyjne można znaleźć na stronie http://biostat.mc.vanderbilt.edu/rms

Frank Harrell
źródło
2
Wow, nie wiedziałem, że 10-krotne CV należy powtórzyć 50-100 razy! Będę musiał ponownie odwiedzić mój ostatni projekt i zamiast tego spróbować przetestować bootstrap. Uwielbiam tę stronę: każdego dnia uczę się czegoś!
Wayne,
Dzięki @Frank! Powiedzmy, że mam zestaw modeli kandydujących o tej samej liczbie parametrów, czy te o mniejszej wariancji w szacunkach bootstrap są lepszymi kandydatami (zakładając, że całkowita strata lub ryzyko były takie same dla wszystkich z nich) do walki z przeregulowaniem?
Amelio Vazquez-Reina,
Nie zakładałbym tego, ale jest to możliwe.
Frank Harrell,
Świetna odpowiedź, dziękuję! Nie wiedziałem, że bootstrap może być również używany do sprawdzania poprawności modelu ORAZ sprawdzanie poprawności krzyżowej należy powtarzać wiele razy. Widzę kolejną zaletę tej metody: walidacja krzyżowa wymaga wcześniejszej (subiektywnej) liczby fałd, zwykle 10, która jest bardziej lub mniej heurystyczna niż optymalna. Ale chociaż jest to świetna metoda, dlaczego nie wydaje się tak popularna jak krzyżowa walidacja?
SiXUlm
Walidacja modelu bootstrap jest dość popularna, ale walidacja krzyżowa trwa już dłużej. Ale jak powiedziałeś, istnieje pewna arbitralność w wyborze # folds w cv.
Frank Harrell,
3

Rozważ użycie bootstrap do uśrednienia modelu .

Poniższy artykuł może pomóc, ponieważ porównuje podejście do uśredniania modelu bootstrap z (częściej stosowanym?) Uśrednianiem modelowania bayesowskiego i przedstawia przepis na wykonanie uśredniania modelu.

Uśrednianie modelu bootstrap w badaniach szeregów czasowych zanieczyszczenia powietrza i śmiertelności cząstek stałych

Josh Hemann
źródło
W większości przypadków nie polecałbym bootstrapu do uśredniania modelu. Bootstrap najlepiej jest powiedzieć, jak wykonuje się jedna procedura modelowania, niż powiedzieć, jak utworzyć nową procedurę. Istnieją jednak wyjątki od tego.
Frank Harrell,
@Frank Harrell - Zgoda. Artykuł, do którego się odniosłem, dotyczy obszaru, w którym czasami pracuję i użyłem bootstrapu do scenariusza, który opisałeś: ocena zmienności konkretnego modelu z powodu błędu próbkowania. Ale niepewność wynikająca z samego wyboru modelu jest jeszcze trudniejsza do oszacowania, a podejście uśredniające model bootstrap może być przydatne jako pomoc, szczególnie dla praktyków takich jak ja, którzy nie mają doświadczenia / tła do przeformułowania problemów dotyczących uśredniania modelu bayesowskiego.
Josh Hemann,
2
Nie, powiedziałbym, że bootstrap doskonale nadaje się do oceny szkód spowodowanych nieznajomością modelu z góry. Nie oznacza to, że należy koniecznie używać paska startowego, aby poprawić rzeczy, takie jak uśrednianie dla zestawu niepewnych modeli. Jeśli powinieneś użyć bootstrap w ten sposób, potrzebujesz podwójnego bootstrap, aby uzyskać rzetelną ocenę wydajności uśrednionego modelu. Powinienem zauważyć, że losowe lasy są formą uśredniania modelu za pomocą bootstrapu.
Frank Harrell,
Dobra uwaga na temat podwójnego ładowania. Autorzy artykułu, do którego się powołałem, mają na ten temat artykuł uzupełniający: Uśrednianie modelu Bootstrap po Bootstrap w celu zmniejszenia niepewności modelu przy wyborze modelu do badań śmiertelności z powodu zanieczyszczenia powietrza
Josh Hemann
Dobry. Pamiętaj tylko, że to często przesada. Często najlepiej jest stworzyć pełny model kierowany tematycznie i użyć skurczu (kary), jeśli jest on zbyt dopasowany; ale wciąż jest to jeden model.
Frank Harrell,