Modelowanie danych podłużnych, w których wpływ czasu zmienia się w formie funkcjonalnej między poszczególnymi osobami

32

Kontekst :

Wyobraź sobie, że miałeś badanie podłużne, w którym mierzono zmienną zależną (DV) raz w tygodniu przez 20 tygodni na 200 uczestnikach. Chociaż ogólnie interesuje mnie, typowe DV, o których myślę, obejmują wyniki pracy po zatrudnieniu lub różne środki dobrostanu po interwencji psychologii klinicznej.

Wiem, że modelowanie wielopoziomowe może być wykorzystane do modelowania związku między czasem a DV. Możesz także pozwolić, aby współczynniki (np. Przechwyty, zbocza itp.) Różniły się między poszczególnymi osobami i oszacowały określone wartości dla uczestników. Ale co, jeśli podczas wizualnej inspekcji danych okaże się, że związek między czasem a DV jest jednym z poniższych:

  • różnią się formą funkcjonalną (być może niektóre mają charakter liniowy, a inne mają charakter wykładniczy, a niektóre mają nieciągłość)
  • różna wariancja błędu (niektóre osoby są bardziej zmienne z jednego punktu czasowego do następnego)

Pytania :

  • Jaki byłby dobry sposób na podejście do modelowania danych w ten sposób?
  • W szczególności, jakie podejścia są dobre w identyfikowaniu różnych rodzajów relacji i kategoryzowaniu osób pod względem ich typu?
  • Jakie implementacje istnieją w R dla takich analiz?
  • Czy są jakieś odniesienia, jak to zrobić: podręcznik lub faktyczna aplikacja?
Jeromy Anglim
źródło

Odpowiedzi:

20

Proponuję spojrzeć na następujące trzy kierunki:

  • grupowanie wzdłużne : nie jest to nadzorowane, ale do oceny jakości partycjonowania używa się metody k-średnich, opierając się na kryterium Calinsky'ego (pakiet kml i odniesienia zawarte w pomocy online); więc w zasadzie nie pomoże zidentyfikować konkretnego kształtu dla indywidualnego przebiegu czasowego, ale po prostu oddzielny jednorodny profil ewolucji
  • pewnego rodzaju ukryta krzywa wzrostu uwzględniająca heteroscedastyczność: moim najlepszym przypuszczeniem byłoby przyjrzenie się obszernym referencjom wokół oprogramowania MPlus , szczególnie FAQ i mailingu. Słyszałem także o multiplikatywnym modelu heteroscedastycznym z efektem losowym (spróbuj googlować wokół tych słów kluczowych). Uważam te artykuły ( 1 , 2 ) za interesujące, ale nie przyjrzałem się im szczegółowo. Po powrocie do mojego biura przedstawię referencje dotyczące oceny neuropsychologicznej.
  • funkcjonalny PCA ( pakiet fpca ), ale warto przyjrzeć się analizie danych funkcjonalnych

Inne referencje (właśnie przeglądane w locie):

chl
źródło
1
Dzięki. Pomysł wykorzystania procedury klastrowania przyszedł mi do głowy. Wyobrażam sobie, że wyzwaniem byłoby odpowiednie uchwycenie i zważenie możliwych cech krzywej indywidualnej w teoretycznie znaczący sposób. Zobaczę, jak to działa w kml.
Jeromy Anglim
1
Cóż, działa całkiem dobrze, chociaż interfejs jest okropny (i znam faceta, który go zbudował :) - Użyłem go dwa miesiące temu do rozdzielenia grup klinicznych na podstawie indywidualnych profili na podstawie pomiarów rozwojowych (Brunet-Lézine).
chl
1
Oto kolejne podstawowe odniesienie do FDA: psych.mcgill.ca/misc/fda
Mike Lawrence
1
Znalazłem to wprowadzenie do linku FDA autorstwa Ramsaya (2008), szczególnie dostępnego gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Anglim
6

Wydaje mi się, że modele mieszanki wzrostu mogą potencjalnie pozwolić ci zbadać wariancję błędu. ( Tutaj PDF ). (Nie jestem pewien, jakie są multiplikatywne modele heteroscedastyczne, ale na pewno będę musiał je sprawdzić).

Modele trajektorii oparte na utajonych grupach stały się ostatnio bardzo popularne w kryminologii. Ale wiele osób po prostu przyjmuje za pewnik, że grupy faktycznie istnieją, a niektóre sprytne badania wykazały, że grupy można znaleźć nawet w przypadkowych danych. Należy również zauważyć, że podejście do modelowania oparte na grupach Nagina nie pozwala ocenić błędu (i szczerze mówiąc, nigdy nie widziałem modelu, który wyglądałby jak nieciągłość).

Chociaż byłoby to trudne z 20 punktami czasowymi, pomocne może być opracowanie prostych heurystyk w celu identyfikacji wzorców (np. Zawsze niski lub zawsze wysoki współczynnik zmienności). Widzę wykresy przebiegu w czasie w arkuszu kalkulacyjnym lub wykresach współrzędnych równoległych, ale wątpię, aby były one pomocne (szczerze mówiąc, nigdy nie widziałem wykresu współrzędnych, który jest bardzo pouczający).

Powodzenia

Andy W.
źródło
@chl, nie ma problemu, dziękuję za wszystkie wymienione tutaj zasoby.
Andy W
Dobra uwaga na temat ukrytych grup. Widziałem kilka zastosowań ukrytej analizy klas i analizy skupień, w których wydaje się po prostu tworzyć ciągłą zmienną int kategorii takich niskich i wysokich ( jeromyanglim.blogspot.com/2009/09/... ). Mam jednak pewne dane podłużne na poziomie indywidualnym, które wizualnie wyglądają, jakby pochodziły z kategorycznie odrębnych procesów generowania danych (np. Zawsze wysoki, zawsze niski, stopniowy wzrost, niski wzrost, itd.) Oraz w ramach kategorii jest więcej ciągłych zmian parametrów.
Jeromy Anglim
@Jeromy, nie sądzę, aby praca, którą cytowałem, zniechęciłaby ludzi do używania takich metod do identyfikacji ukrytych grup. Powiedziałbym, że sedno pracy polega na tym, że nie można używać takich metod wyłącznie do wnioskowania o istnieniu grup, ponieważ zawsze można znaleźć grupy, nawet w przypadkowych danych. Od bardziej subiektywnej interpretacji zależy, czy te grupy, które znajdziesz, są prawdziwe, czy są po prostu artefaktami metody. Możesz zidentyfikować niektóre logiczne teorie, które generują takie procesy, a następnie sprawdzić, czy zidentyfikowane grupy pasują do tych teorii.
Andy W
5

Cztery lata po zadaniu tego pytania nauczyłem się kilku rzeczy, więc może powinienem dodać kilka pomysłów.

Myślę, że bayesowskie modelowanie hierarchiczne zapewnia elastyczne podejście do tego problemu.

Oprogramowanie : narzędzia takie jak jags, stan, WinBugs itp. Potencjalnie w połączeniu z ich odpowiednimi pakietami interfejsu R (np. Rjags, rstan) ułatwiają określenie takich modeli.

Różnice w obrębie błędu osoby: Modele bayesowskie ułatwiają określenie wariancji błędu osoby jako czynnika losowego, który różni się między ludźmi.

yja=1,...,njot=1,...jot

yjajotN.(μja,σja2))
μja=γ
γN.(μγ,σγ2))
σjasolzammza(α,β)

Zatem odchylenie standardowe każdej osoby może być modelowane jako rozkład gamma. Przekonałem się, że jest to ważny parametr w wielu domenach psychologicznych, w których ludzie różnią się tym, jak bardzo różnią się w czasie.

Utajone klasy krzywych: Nie zgłębiałem jeszcze tego pomysłu, ale stosunkowo łatwo jest określić dwie lub więcej możliwych funkcji generowania danych dla każdej osoby, a następnie pozwolić modelowi Bayesian wybrać model najbardziej prawdopodobny dla danej osoby. W ten sposób zazwyczaj otrzymujesz prawdopodobieństwo tylne dla każdej osoby w odniesieniu do tego, która forma funkcjonalna opisuje dane osób.

Jako szkic pomysłu na model możesz mieć coś takiego:

yjajotN.(μjajot,σ2))
μjajot=γjaλjajot(1)+(1-γja)λjajot(2))
λjajot(1)=θ1ja(1)+θ2)ja(1)exp(-θ3)ja(1))
λjajot(2))=θ1ja(2))+θ2)ja(2))xjajot+θ3)ja(2))xjajot2)
γja=bmirnoullja(πja)

xjajotλjajot(1)λjajot(2))πjaλjajot(1)

Jeromy Anglim
źródło
Przeniosłem się również do frameworku bayesowskiego i czytałem o używaniu procesów Gaussa do analizy szeregów czasowych niepewnych form funkcji. Nadal niejasne jest, w jaki sposób można je zastosować w przypadku danych hierarchicznych (patrz moje zapytanie bez odpowiedzi tutaj: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ )
Mike Lawrence