Najlepsza metoda tworzenia wykresów wzrostu

10

Muszę stworzyć wykresy (podobne do wykresów wzrostu) dla dzieci w wieku od 5 do 15 lat (tylko 5,6,7 itd; nie ma wartości ułamkowych, takich jak 2,6 lat) dla zmiennej zdrowia, która jest nieujemna, ciągła i zakres 50-150 (z kilkoma wartościami poza tym zakresem). Muszę utworzyć krzywe 90, 95 i 99 percentyla, a także stworzyć tabele dla tych percentyli. Wielkość próbki wynosi około 8000.

Sprawdziłem i znalazłem następujące możliwe sposoby:

  1. Znajdź kwantyle, a następnie użyj metody lessa, aby uzyskać gładką krzywą z tych kwantyli. Stopień gładkości można regulować za pomocą parametru „rozpiętość”.

  2. Użyj metody LMS (Lambda-Mu-Sigma) (np. Używając pakietów gamlss lub VGAM w języku R).

  3. Użyj regresji kwantowej.

  4. Użyj średniej i SD każdej grupy wiekowej, aby oszacować percentyl dla tego wieku i utworzyć krzywe percentyla.

Jak najlepiej to zrobić? Przez „najlepszy” rozumiem albo idealną metodę, która jest standardową metodą tworzenia takich krzywych wzrostu i byłaby do przyjęcia dla wszystkich. Lub łatwiejsza i prostsza do wdrożenia metoda, która może mieć pewne ograniczenia, ale jest akceptowalną, szybszą metodą. (Na przykład użycie less na wartościach percentyla jest znacznie szybsze niż użycie LMS pakietu gamlss).

Jaki będzie podstawowy kod R dla tej metody.

Dzięki za pomoc.

rnso
źródło
2
Prosisz o „najlepsze”, które zazwyczaj jest gdzieś pomiędzy trudnym a niemożliwym do ostatecznego omówienia. („Najlepsza” miara poziomu jest wystarczająco trudna.) Wyraźnie powiązałeś swoje pytanie ze zmianami zdrowotnymi u dzieci, ale twoje kryteria „najlepszej” nie są jednoznaczne, w szczególności, jakie rodzaje lub stopnie gładkości są dopuszczalne lub nieakceptowalne.
Nick Cox,
Z zadowoleniem przyjmuję tę próbę, ale a) najwyraźniej nie istnieje, dlaczego istnieją konkurencyjne rozwiązania lub dlaczego nie jest to widoczne w literaturze, którą czytasz? Zainteresowanie tym problemem jest z pewnością dziesięciolecia, jeśli nie wieki. Łatwiej znaczy: łatwiej zrozumieć, łatwiej wytłumaczyć medykom lub ogólnie nie-statystycznie profesjonalistom, łatwiej wdrożyć, ...? Bez wątpienia jestem wybredna, ale dlaczego miałabyś przejmować się szybkością? Żadna z tych metod nie jest wymagająca obliczeniowo.
Nick Cox,
@NickCox: Zredagowałem pytanie zgodnie z Twoimi komentarzami. Docenię prawdziwą odpowiedź.
rnso
1
Przepraszam, ale nie pracuję w tej dziedzinie i myślę, że twoje pytanie jest zbyt nieuchwytne, aby odpowiedzieć. Komentarze istnieją, ponieważ ludzie mogą nie być w stanie lub nie chcą odpowiedzieć, ale mimo to mają coś do powiedzenia. Nie piszę odpowiedzi na zamówienie.
Nick Cox,

Odpowiedzi:

6

Istnieje duża literatura na temat krzywych wzrostu. Moim zdaniem istnieją trzy „najlepsze” podejścia. We wszystkich trzech przypadkach czas jest modelowany jako ograniczony splajn sześcienny z wystarczającą liczbą węzłów (np. 6). Jest to parametryczne wygładzenie z doskonałą wydajnością i łatwą interpretacją.

  1. Klasyczne modele krzywej wzrostu (uogólnione najmniejsze kwadraty) dla danych podłużnych z rozsądnym wzorem korelacji, takim jak AR1 w czasie ciągłym. Jeśli możesz wykazać, że reszty są gaussowskie, możesz uzyskać MLE kwantyli, używając średnich szacunkowych i wspólnego standardowego odchylenia.
  2. n
  3. YY jest ciągłe.
Frank Harrell
źródło
Kiedy zastosowałeś kursy proporcjonalne, w jaki sposób uwzględniłeś założenie PO (zakładając, że się nie powiodło) przy tak wielu poziomach wyniku? Dzięki.
lipiec
2
Nawet jeśli zawiedzie, model może działać lepiej niż niektóre inne modele z powodu mniejszej liczby założeń. Lub przejdź do jednego z pozostałych modeli porządkowych prawdopodobieństwa skumulowanego, takiego jak ryzyko proporcjonalne (log-log skumulowane prawdopodobieństwo prob).
Frank Harrell,
1

Regresja procesu Gaussa . Zacznij od kwadratowego jądra wykładniczego i spróbuj dostroić parametry na oko. Później, jeśli chcesz robić wszystko poprawnie, eksperymentuj z różnymi jąderami i użyj marginalnego prawdopodobieństwa do optymalizacji parametrów.

Jeśli chcesz uzyskać więcej szczegółów niż samouczek, do którego prowadzi link powyżej, ta książka jest świetna .

Andy Jones
źródło
Dzięki za odpowiedź. Jak oceniasz regresję procesu Gaussa w porównaniu z innymi wymienionymi metodami. Drugi wykres gaussowski na scikit-learn.org/0.11/auto_examples/gaussian_process/… wydaje się bardzo podobny do drugiego ostatniego wykresu na tej stronie LOESS (regresja lokalna): princeofslides.blogspot.in/2011/05/… . MIŁOŚĆ jest znacznie łatwiejsza do wykonania.
rnso
Osobiście zdecydowanie wolę GPR dla każdego zestawu danych, który jest wystarczająco mały, abyś mógł go dopasować. Oprócz tego, że jest o wiele „ładniejszy” z teoretycznego punktu widzenia, jest bardziej elastyczny, niezawodny i daje dobrze skalibrowane wyjście probabilistyczne. Powiedziawszy to wszystko, jeśli twoje dane są gęste i dobrze się zachowują, twoi odbiorcy prawdopodobnie nie będą w stanie odróżnić LOESS od GPR, chyba że są statystami.
Andy Jones,
3
yx
1
@Nick: Moją zamierzoną radą było zbudowanie modelu danych, a następnie użycie tego modelu do stworzenia (gładkich) krzywych percentyla. Teraz o tym wspomniałeś, tak, kompletnie brakowało mi drugiego komponentu (tj. Właściwego pytania).
Andy Jones,
1
1,96