Prawidłowa technika ładowania dla klastrowanych danych?

Mam pytanie dotyczące właściwej techniki ładowania początkowego w przypadku danych, w których występuje silne grupowanie.

Zadanie polegało na ocenie modelu prognostycznego z wieloma zmiennymi efektami mieszanymi na danych dotyczących roszczeń ubezpieczeniowych poprzez ocenę obecnego modelu bazowego na nowszych danych dotyczących roszczeń, aby określić, jak dobrze model przewiduje, które odcinki opieki zawierają największą częstotliwość sesji (górna 95 percentyl). Czułość, swoistość i dodatnia wartość predykcyjna (PPV) zostaną wykorzystane do oceny skuteczności modelu.

Bootstrapping wydaje się właściwą drogą do budowania przedziałów ufności dla czułości, swoistości i wartości procentowych PPV. Niestety, naiwny bootstrap nie jest odpowiedni, biorąc pod uwagę, że dane roszczeń są 1) skorelowane przez świadczeniodawcę, 2) pogrupowane w odcinki opieki z częstszymi wizytami w miesiącach wcześniej w odcinku opieki (więc istnieje pewna autokorelacja). Czy odpowiednia byłaby tutaj odmiana techniki ładowania bloków ruchomych?

A może zadziałałaby trzyetapowa procedura ładowania: 1) próbka z zastąpieniem od różnych dostawców w danych, następnie 2) próbka z zastąpieniem z różnych odcinków opieki przez wybranych dostawców, a następnie 3) próbka z zastąpieniem z oddzielnych roszczeń w ramach każdego wybrany odcinek.

Wielkie dzięki za wszelkie sugestie!

bootstrap random-effects-model mixed-model RobertF
źródło

Odpowiedzi:

Drugie sugerowane przez ciebie podejście wydaje się rozsądne, ale okazuje się, że lepiej jest próbkować tylko z zamianą na najwyższym poziomie i bez zamiany na pozostałych podpoziomach podczas ładowania danych hierarchicznych. Pokazano to na podstawie symulacji przeprowadzonych przez Ren i in. (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) teoretycznie zbadali różne podejścia do dwupoziomowych zestawów danych i odkryli, że próbkowanie z zamianą na obu poziomach nie było genialnym pomysłem.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

Wspomniana autokorelacja jest poważnym problemem. Z drugiej strony wybranie bez zastępowania odcinków opieki zachowałoby strukturę autokorelacji, więc może nie jest to taki duży problem.

Pelle
źródło

Zastanawiam się, czy następujące rozwiązanie jest odpowiednie:

Rafael,

... przepraszam, nie mogłem dokończyć mojego poprzedniego komentarza. Oto on: ... Utwórz kod (id) uwzględniający każdy poziom klastrowania (np. Episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) , a następnie skorzystaj z GEE, które pozwalają radzić sobie z autokorelacją. Czytałem gdzieś, że modele GEE dają solidne oszacowanie nawet w obecności bardziej skupionych struktur. Czy to rozwiązanie brzmi rozsądnie?

Rafael,