Jak radzić sobie z brakującymi danymi podczas korzystania z splajnów lub wielomianów ułamkowych?

12

Czytam Multivariable Model Building: Pragmatyczne podejście do analizy regresji w oparciu o ułamkowe wielomiany do modelowania zmiennych ciągłych przez Patrick Royston i Willie Sauerbrei. Jak dotąd jestem pod wrażeniem i jest to interesujące podejście, którego wcześniej nie rozważałem.

Ale autorzy nie zajmują się brakującymi danymi. Rzeczywiście, na str. 17 twierdzą, że brakujące dane „wprowadzają wiele dodatkowych problemów. Nie uwzględniono ich tutaj”.

Czy wielokrotna imputacja działa z wielomianami ułamkowymi>

FP jest pod pewnymi względami (ale nie wszystkimi) alternatywą dla splajnów. Czy łatwiej jest radzić sobie z brakującymi danymi dla regresji splajnu?

Peter Flom - Przywróć Monikę
źródło
Czy masz do czynienia z brakującymi x lub brakującymi y lub obydwoma?
Glen_b
2
+1 (!) Naprawdę cieszę się, że ktoś inny zadaje podobne pytanie. Niedawno opublikowałem to pytanie: stats.stackexchange.com/questions/295977/... na temat używania ograniczonych splajnów sześciennych u myszy R. W szczególności wybrałbym splajny, ponieważ nie wymagają one określenia ułamkowego wielomianu, podczas gdy splajny są wystarczająco elastyczne dla wielu form funkcjonalnych. Nie wiem jednak, czy to odpowiada na twoje pytanie (stąd ten komentarz).
IWS
2
To interesujące pytanie, otwierające (jako jeden z możliwych wymiarów odpowiedzi) możliwość wywołania krytyki tych kilku technik wygładzania / interpolacji poprzez przeciwstawienie ich zdolności do dostosowania brakujących danych. (W pewnym stopniu kruchość wobec zaginięcia jest „zawstydzeniem” współczesnej metody.) Zauważam tylko, że przechodząc do oczywistego punktu, że wdrożenie bayesowskie dałoby ci przypisanie „za darmo”.
David C. Norris,
2
@ DavidC.Norris Twój komentarz mnie intryguje! Czy mógłbyś wyjaśnić, w jaki sposób metody bayesowskie uwzględniają brakujące „za darmo” (co, jak zakładam, masz na myśli, że metody analizy są obsługiwane odpowiednio, „automatycznie” i domyślnie)? (Lub wskaż mi odniesienie)
IWS
2
Część „bezpłatnego” braku obiadu polega na tym, że musisz spisać model bayesowski, który sugeruje wyraźne myślenie o procesie generowania danych ( DGP ). Gdy to zrobisz, traktujesz brakujące wartości jako parametry [uciążliwe]. (W języku bayesowskim „wszystko jest parametrem”. Zobacz także zmienną ukrytą .) Następnie MCMC zasadniczo wykorzystuje podaną przez ciebie MZD, aby „przypisać” brakujące wartości „za darmo”, podczas gdy ona ciągnie za sobą.
David C. Norris,

Odpowiedzi:

1

Wielokrotna imputacja może być stosowana w przypadku ułamkowych wielomianów i splajnów. Powiedzmy, że reprezentuje twoją funkcjonalną formę (np. ). Niech będzie funkcją oszacowaną w każdej z próbek syntetycznych, wtedy twoja funkcja to .f(x)f(x)=x+x.5fm()M1MmMfm(x)

Zakładając, że oprogramowanie, którego używasz, może zapewnić standardowe oszacowanie błędu dla każdej unikalnej wartości x, możesz użyć formuły Rubina (wielokrotna imputacja dla braku odpowiedzi w ankietach; 1987) do obliczenia standardowych błędów. Istnieją małe i duże wzory prób dla stopni swobody z wielokrotnym przypisaniem. Duża próbka (również w Rubinie) pobiera te same dane co standardowy błąd, więc można jej również użyć. Mały przypadek próbki przyjmuje na wejściu stopnie swobody modelu; nie jest dla mnie oczywiste, czy można tu zastosować tę formułę.

Tim
źródło