Muszę stworzyć wykresy (podobne do wykresów wzrostu) dla dzieci w wieku od 5 do 15 lat (tylko 5,6,7 itd; nie ma wartości ułamkowych, takich jak 2,6 lat) dla zmiennej zdrowia, która jest nieujemna, ciągła i zakres 50-150 (z kilkoma wartościami poza tym zakresem). Muszę utworzyć krzywe 90, 95 i 99 percentyla, a także stworzyć tabele dla tych percentyli. Wielkość próbki wynosi około 8000.
Sprawdziłem i znalazłem następujące możliwe sposoby:
Znajdź kwantyle, a następnie użyj metody lessa, aby uzyskać gładką krzywą z tych kwantyli. Stopień gładkości można regulować za pomocą parametru „rozpiętość”.
Użyj metody LMS (Lambda-Mu-Sigma) (np. Używając pakietów gamlss lub VGAM w języku R).
Użyj regresji kwantowej.
Użyj średniej i SD każdej grupy wiekowej, aby oszacować percentyl dla tego wieku i utworzyć krzywe percentyla.
Jak najlepiej to zrobić? Przez „najlepszy” rozumiem albo idealną metodę, która jest standardową metodą tworzenia takich krzywych wzrostu i byłaby do przyjęcia dla wszystkich. Lub łatwiejsza i prostsza do wdrożenia metoda, która może mieć pewne ograniczenia, ale jest akceptowalną, szybszą metodą. (Na przykład użycie less na wartościach percentyla jest znacznie szybsze niż użycie LMS pakietu gamlss).
Jaki będzie podstawowy kod R dla tej metody.
Dzięki za pomoc.
Odpowiedzi:
Istnieje duża literatura na temat krzywych wzrostu. Moim zdaniem istnieją trzy „najlepsze” podejścia. We wszystkich trzech przypadkach czas jest modelowany jako ograniczony splajn sześcienny z wystarczającą liczbą węzłów (np. 6). Jest to parametryczne wygładzenie z doskonałą wydajnością i łatwą interpretacją.
źródło
Regresja procesu Gaussa . Zacznij od kwadratowego jądra wykładniczego i spróbuj dostroić parametry na oko. Później, jeśli chcesz robić wszystko poprawnie, eksperymentuj z różnymi jąderami i użyj marginalnego prawdopodobieństwa do optymalizacji parametrów.
Jeśli chcesz uzyskać więcej szczegółów niż samouczek, do którego prowadzi link powyżej, ta książka jest świetna .
źródło