Przeglądałem tutaj różne wątki, ale nie sądzę, aby na moje dokładne pytanie zostało udzielone odpowiedzi.
Mam zbiór danych obejmujący ~ 50 000 studentów i ich czas na rezygnację. Zamierzam przeprowadzić proporcjonalną regresję zagrożeń z dużą liczbą potencjalnych zmiennych towarzyszących. Zamierzam również przeprowadzić regresję logistyczną w przypadku porzucenia / pozostania w. Głównym celem będzie przewidywanie nowych grup studentów, ale nie mamy powodu, aby sądzić, że będą się znacznie różnić od grupy z zeszłego roku.
Zwykle nie mam takiego luksusu danych i dopasowuję model z jakąś penalizacją, ale tym razem pomyślałem o podzieleniu zbiorów treningowych i testowych, a następnie dokonaniu selekcji zmiennych w zestawie szkoleniowym; następnie używając zestawu danych testowych do oszacowania parametrów i zdolności predykcyjnej.
Czy to dobra strategia? Jeśli nie, co jest lepsze?
Cytaty mile widziane, ale nie konieczne.
źródło
Sam patrzyłem na ten artykuł na podobne zadanie polegające na weryfikacji krzyżowej prognozy przeżycia. Dobre kawałki zaczynają się od rozdziału 2.
źródło
Od tamtej pory znalazłem ten artykuł, który nie tylko odpowiada na moje pytanie, ale zapewnia metodę ustalenia optymalnego podziału dla określonych zestawów danych. Znalazłem to dzięki użyciu przez @FrankHarrell terminu „optymalna konfiguracja podziału”, który następnie przejrzałem w Google.
źródło