Szkolenie, testowanie, sprawdzanie poprawności problemu analizy przeżycia

14

Przeglądałem tutaj różne wątki, ale nie sądzę, aby na moje dokładne pytanie zostało udzielone odpowiedzi.

Mam zbiór danych obejmujący ~ 50 000 studentów i ich czas na rezygnację. Zamierzam przeprowadzić proporcjonalną regresję zagrożeń z dużą liczbą potencjalnych zmiennych towarzyszących. Zamierzam również przeprowadzić regresję logistyczną w przypadku porzucenia / pozostania w. Głównym celem będzie przewidywanie nowych grup studentów, ale nie mamy powodu, aby sądzić, że będą się znacznie różnić od grupy z zeszłego roku.

Zwykle nie mam takiego luksusu danych i dopasowuję model z jakąś penalizacją, ale tym razem pomyślałem o podzieleniu zbiorów treningowych i testowych, a następnie dokonaniu selekcji zmiennych w zestawie szkoleniowym; następnie używając zestawu danych testowych do oszacowania parametrów i zdolności predykcyjnej.

Czy to dobra strategia? Jeśli nie, co jest lepsze?

Cytaty mile widziane, ale nie konieczne.

Peter Flom - Przywróć Monikę
źródło

Odpowiedzi:

8

n>20,000

Frank Harrell
źródło
Dzięki. Czy poleciłbyś 80-20? 90-10? Coś innego? Wszelkie odniesienia na ten temat?
Peter Flom - Przywróć Monikę
2
n
3

Sam patrzyłem na ten artykuł na podobne zadanie polegające na weryfikacji krzyżowej prognozy przeżycia. Dobre kawałki zaczynają się od rozdziału 2.

Cam.Davidson.Pilon
źródło
Wydaje się, że porównuje 5-krotność szacunków opartych na modelu CV (i stwierdza, że ​​5-krotny jest lepszy). Byłem jednak bardziej zainteresowany podzieleniem danych na 2 części i wykorzystaniem jednej do weryfikacji drugiej.
Peter Flom - Przywróć Monikę
1
Odkryłem to i dlaczego pierwotnie pociągał mnie ten artykuł, było to, jak radzić sobie z cenzurą w prognozach przeżycia, tj. Jaką funkcją straty użyć (chociaż ponownie czytając pytanie, możesz nie mieć cenzury).
Cam.Davidson.Pilon
Mam cenzurę i rozprawa jest interesująca, ale nie jest to odpowiedź na moje pytanie, nie sądzę.
Peter Flom - Przywróć Monikę
1

Od tamtej pory znalazłem ten artykuł, który nie tylko odpowiada na moje pytanie, ale zapewnia metodę ustalenia optymalnego podziału dla określonych zestawów danych. Znalazłem to dzięki użyciu przez @FrankHarrell terminu „optymalna konfiguracja podziału”, który następnie przejrzałem w Google.

Peter Flom - Przywróć Monikę
źródło
2
Peter Myślę, że w papierze zastosowano niewłaściwą regułę punktacji. Różne wyniki można uzyskać, stosując odpowiednie reguły punktacji. Ponadto artykuł nie dotyczył „zmienności” analizy. Biorąc pod uwagę małe całkowite rozmiary próbek, powtórzenie procesu przy użyciu innego losowego podziału spowoduje znacznie różne modele i znacznie inną dokładność w porównaniu do pierwszego podziału. Widzę, że jest to bardzo niepożądane.
Frank Harrell,
@FrankHarrell: Rozumiem twój punkt widzenia i jest to naprawdę bardzo dobry punkt. Co zatem zalecasz robić? Peform Monte Carlo uruchamia podział na pociąg / test, a następnie czy przy każdym uruchomieniu czy IX-K składa foldery CV (czy ładowanie początkowe)? Ale wtedy zanieczyściłoby to cały zestaw danych ... Nie widzę lepszego rozwiązania niż znalezienie odpowiedniego sposobu podzielenia zestawu danych na zestawy pociągów i testów (jakie byłyby kryteria?) Po prostu nie czuję się komfortowo, używając wszystkich zbiór danych do trenowania i sprawdzania poprawności (przy użyciu CV lub rozruchu) modeli (z których jeden (lub kilka) zostanie wykorzystany do przewidywania nieznanych wartości wyjściowych na podstawie niektórych danych wejściowych).
jpcgandre
Odpowiedziałem na to w poście, który właśnie umieściłeś na innej stronie tematu.
Frank Harrell,