Mam pytanie dotyczące właściwej techniki ładowania początkowego w przypadku danych, w których występuje silne grupowanie.
Zadanie polegało na ocenie modelu prognostycznego z wieloma zmiennymi efektami mieszanymi na danych dotyczących roszczeń ubezpieczeniowych poprzez ocenę obecnego modelu bazowego na nowszych danych dotyczących roszczeń, aby określić, jak dobrze model przewiduje, które odcinki opieki zawierają największą częstotliwość sesji (górna 95 percentyl). Czułość, swoistość i dodatnia wartość predykcyjna (PPV) zostaną wykorzystane do oceny skuteczności modelu.
Bootstrapping wydaje się właściwą drogą do budowania przedziałów ufności dla czułości, swoistości i wartości procentowych PPV. Niestety, naiwny bootstrap nie jest odpowiedni, biorąc pod uwagę, że dane roszczeń są 1) skorelowane przez świadczeniodawcę, 2) pogrupowane w odcinki opieki z częstszymi wizytami w miesiącach wcześniej w odcinku opieki (więc istnieje pewna autokorelacja). Czy odpowiednia byłaby tutaj odmiana techniki ładowania bloków ruchomych?
A może zadziałałaby trzyetapowa procedura ładowania: 1) próbka z zastąpieniem od różnych dostawców w danych, następnie 2) próbka z zastąpieniem z różnych odcinków opieki przez wybranych dostawców, a następnie 3) próbka z zastąpieniem z oddzielnych roszczeń w ramach każdego wybrany odcinek.
Wielkie dzięki za wszelkie sugestie!