Liniowe modelowanie efektów mieszanych z danymi z badań bliźniaczych

14

Załóżmy, że mam jakąś zmienną odpowiedzi która została zmierzona od j- tego rodzeństwa w i- tej rodzinie. Ponadto niektóre dane behawioralne x i j zebrano w tym samym czasie od każdego pacjenta. Próbuję przeanalizować sytuację za pomocą następującego liniowego modelu mieszanych efektów:yijjixij

yij=α0+α1xij+δ1ixij+εij

gdzie i α 1 oznaczają odpowiednio stały punkt przecięcia i nachylenie, δ 1 i jest nachyleniem losowym, a ε i j jest wartością resztkową.α0α1δ1iεij

Założenia dla efektów losowych oraz resztkowego ε i j są (przy założeniu, że w każdej rodzinie jest tylko dwoje rodzeństwa)δ1iεij

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

gdzie jest nieznanym parametrem wariancji, a struktura wariancji-kowariancji R jest symetryczną macierzą formy 2 x 2τ2R

(r12r122r122r22)

który modeluje korelację między dwojgiem rodzeństwa.

  1. Czy jest to odpowiedni model dla takiego rodzeństwa?

  2. Dane są nieco skomplikowane. Spośród 50 rodzin blisko 90% z nich to bliźnięta dizygotyczne (DZ). Dla pozostałych rodzin

    1. dwoje ma tylko jedno rodzeństwo;
    2. dwa mają jedną parę DZ i jedno rodzeństwo; i
    3. dwa mają jedną parę DZ i dwa dodatkowe rodzeństwo.


    Wierzę, lmeże pakiet R nlmemoże łatwo poradzić sobie (1) z brakującą lub niezrównoważoną sytuacją. Mam problem z tym, jak sobie radzić z (2) i (3)? Jedną z możliwości, jaką mogę wymyślić, jest podzielenie każdej z tych czterech rodzin w (2) i (3) na dwie części, tak aby każda podrodzina miała jedno lub dwoje rodzeństwa, tak aby powyższy model mógł być nadal stosowany. Czy to w porządku? Inną opcją byłoby po prostu wyrzucenie danych z dodatkowego jednego lub dwóch rodzeństwa w (2) i (3), co wydaje się marnotrawstwem. Jakieś lepsze podejścia?

  3. Wydaje się, że lmepozwala to ustalić wartości pozostałej macierzy wariancji-kowariancji R , na przykład r 2 12 = 0,5. Czy ma sens narzucanie struktury korelacji, czy powinienem ją po prostu oszacować na podstawie danych?rRr122

bluepole
źródło
1
Co oznacza ? xj
Makro
@Macro: Dzięki za wykrycie tego. Właśnie zmodyfikowałem OP, aby wskazać, że jest zmienną objaśniającą, miarą behawioralną dla każdego rodzeństwa. xij
bluepole
1
Bardzo interesujące pytanie i aplikacja. Mogłem coś przeoczyć, ale wydaje mi się, że ten model jest zbyt sparametryzowany. Skorelowane błędy można skutecznie rozdzielić na komponenty „współdzielone” i „współdzielone”, przy czym ten ostatni ma taką samą funkcję jak δ 0 i . Musisz albo usunąć δ 0 i , zrobić ϵϵi1,ϵi2δ0iδ0iϵ „s IID błędów, ani nie nakłada ograniczeń, takich jak rozpoznawalności - robisz to na celu oddzielenie składników środowiskowych / genetyczna korelację między rodzeństwem?r122=.5
Makro
@Macro: Masz rację: nie jest konieczne w modelu. Dzięki za zwrócenie na to uwagi! Dziwnie nie narzeka na taką redundancję. δ0ilme
bluepole
Czy nadal pracujesz z tym nadparametryzowanym modelem (ta część pytania nie została edytowana)?
Makro

Odpowiedzi:

10

Do ujednoliconego modelu można uwzględnić bliźnięta i osoby niebędące bliźniakami, używając zmiennej fikcyjnej i włączając losowe nachylenia w tej zmiennej fikcyjnej. Ponieważ wszystkie rodziny mają co najwyżej jeden zestaw bliźniaków, będzie to stosunkowo proste:

Niech jeśli rodzeństwo j w rodzinieAij=1jiηi3

Następnie dopasuj model:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij
  • α0,α1

  • ηi0ηi1Aij=1

  • ηi2ηi3xij

  • εij

Możesz dopasować model za pomocą R pakietu lme4. W kodzie poniżej zmienna zależna to: yzmienna Afikcyjna to predyktor to xiloczyn zmiennej fikcyjnej, a predyktorem jest Axi famIDjest numerem identyfikacyjnym rodziny. Zakłada się, że twoje dane są przechowywane w ramce danych D, z tymi zmiennymi jak kolumnami.

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

Zmienne losowe i oszacowane efekty stałe można wyświetlić, wpisując summary(g). Zauważ, że ten model pozwala na swobodną korelację między losowymi efektami.

W wielu przypadkach bardziej sensowne (lub łatwiejsze do zinterpretowania) może być założenie, że zakłada się niezależność między efektami losowymi (np. Często przyjmuje się założenie, że rozkłada korelację genetyczną i środowiskową w rodzinie), w którym to przypadku należy wpisać

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D) 
Makro
źródło
To naprawdę fajne rozwiązanie i podoba mi się! Wypróbuję to wkrótce i zobaczymy, jak to się skończy ... Wielkie dzięki!
bluepole
Nie ma za co. Jeśli uznasz, że to rozwiązanie jest pomocne, rozważ zaakceptowanie odpowiedzi :)
Makro
Dwa zagadnienia: 1) Ponieważ większość badanych to bliźnięta dizygotyczne, twoje podejście wydaje się nie modelować korelacji między parą bliźniaków DZ. 2) Tylko 4 rodziny mają dodatkowe rodzeństwo. Martwię się, że trudno byłoby oszacować losowe skutki dla rodzeństwa na podstawie tylko tych 4 rodzin. Ponieważ różnica między parą bliźniaków DZ a innym rodzeństwem jest stosunkowo niewielka (głównie środowiskowa, a nie genetyczna), być może mogę po prostu zignorować subtelną różnicę między bliźniakiem a rodzeństwem i potraktować te kilka rodzeństwa jako bliźniaki z przypadkowymi efektami, jak w twoim modelu lub ze skorelowanymi resztami jak w moim OP.
bluepole
σ02+σ12σ02+σ12+σε2
σ02,σ12ηi0,ηi1σε2
ηi0ηi2