Model proporcjonalnego hazardu Coxa i losowo wybrana próbka

9

Czy istnieją metody korygowania błędu systematycznego w modelu proporcjonalnego hazardu Coxa spowodowanego przez losowo wybraną próbkę (coś w rodzaju korekty Heckmana)?

Tło :
Załóżmy, że sytuacja wygląda następująco:
- W ciągu pierwszych dwóch lat wszyscy klienci są przyjmowani.
- Po tych dwóch latach budowany jest model Cox PH. Model przewiduje, jak długo klienci będą korzystać z naszej usługi.
- Ze względu na politykę firmy od teraz akceptowane są tylko klienci z prawdopodobieństwem przeżycia 3 miesięcy powyżej 0,5, inni są odrzucani.
- Po kolejnych dwóch latach należy zbudować nowy model. Problem polega na tym, że mamy cel tylko dla zaakceptowanych klientów i używanie tylko tych klientów może powodować poważne błędy.

Tomek Tarczyński
źródło
1
Jaki jest sens tej analizy? Model PH Coxa nie przewiduje wprost czasu do awarii, chyba że zastosujesz jakieś metody wygładzania lub modelowania parametrycznego. Jakie zmienne stratyfikacji / dostosowania są w tym modelu?
AdamO

Odpowiedzi:

4

Proponowane są rozwiązania parametrycznych modeli zagrożeń. Spójrz na te:

Prieger, James, 2000. „Uogólniony model selekcji parametrycznej dla danych nienormalnych”, Working Papers 00-9, University of California at Davis, Department of Economics.

Boehmke, Frederick J., Daniel Morey i Megan Shannon. 2006. „Bias wyboru i modele ciągłego działania: konsekwencje i proponowane rozwiązanie”. American Journal of Political Science 50 (1): 192-207.

W Stacie jest kod dla późniejszej pracy , pakiet „dursel”

Nie znam jednak rozwiązania dla półparametrycznego modelu Coxa.

jorpppp
źródło
Problem z obliczaniem podejść parametrycznych z półparametrycznym modelem Coxa polega na tym, że ten konkretny problem jest faktycznie związany z brakującymi danymi. Pomimo tego autor nie opisał, w jaki sposób uzyskuje absolutne prognozy ryzyka z modelu Coxa, biorąc pod uwagę, że mamy taką prognozę ryzyka opartą na parametrach modelu (i szacunkach podstawowej funkcji ryzyka), prawdopodobieństwo włączenia w drugiej fazie danych gromadzenie zależy od pierwotnej prognozy ryzyka, więc brak zależy od obserwowanych zmiennych, tj. brakujących danych losowych.
AdamO,
2

Prostą odpowiedzią jest ważenie. Oznacza to, że za pomocą wag można ustandaryzować grupy w grupie „zaakceptowanych” do zainteresowanej populacji. Problemem wynikającym ze stosowania takich wag w analizie zbiorczej z wykorzystaniem zarówno pierwszej, jak i drugiej 2-letniej fazy jest to, że szacowane wagi populacji i parametry są teraz zależne. Zazwyczaj stosuje się podejście oparte na pseudolikeliatywności (w tym przypadku byłoby to pewnego rodzaju pseudo-częściowe prawdopodobieństwo), w którym ignoruje się zależność między wagami próbek a oszacowaniami parametrów. Jednak w wielu praktycznych okolicznościach (i ta nie jest inna) należy uwzględnić tę zależność. Kwestia stworzenia skutecznego estymatora współczynników ryzyka jest trudna i, o ile wiem, otwarta.

Ulepszone oszacowanie parametrów modelu Horvitza-Thompsona z dwufazowych próbek stratyfikowanych: zastosowania w epidemiologii .

W artykule omówiono metody ankietowe, zwykle stosowane w regresji logistycznej, jednak można również zważyć dane dotyczące przeżycia. Niektóre ważne kwestie, o których nie wspomniałeś, to to, czy chcesz stworzyć prognozę, która dotyczy całej populacji, czy populacji „kwalifikującej się” na podstawie szacunków 2-letnich, czy populacji „kwalifikującej się” na podstawie uzyskanej Model. Nie wspomniałeś też dokładnie, jak taki model „przewidywania” jest tworzony z modelu Coxa, ponieważ dopasowanych wartości z modelu Coxa nie można interpretować jako ryzyka. Zakładam, że szacujesz współczynniki ryzyka, a następnie uzyskujesz wygładzone oszacowanie wyjściowej funkcji hazardu.

AdamO
źródło