Struktura danych
> str(data)
'data.frame': 6138 obs. of 10 variables:
$ RT : int 484 391 422 516 563 531 406 500 516 578 ...
$ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ...
$ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 3.6 1.7 8.6 ...
$ MVMNT : Factor w/ 2 levels "_Withd","Appr": 2 2 1 1 2 1 2 1 1 2 ...
$ STIM : Factor w/ 123 levels " arti"," cele",..: 16 23 82 42 105 4 93 9 34 25 ...
$ DRUG : Factor w/ 2 levels "Inactive","Pharm": 1 1 1 1 1 1 1 1 1 1 ...
$ FULLNSS: Factor w/ 2 levels "Fasted","Fed": 2 2 2 2 2 2 2 2 2 2 ...
$ PATIENT: Factor w/ 25 levels "Subj01","Subj02",..: 1 1 1 1 1 1 1 1 1 1 ...
$ SESSION: Factor w/ 4 levels "Sess1","Sess2",..: 1 1 1 1 1 1 1 1 1 1 ...
$ TRIAL : Factor w/ 6138 levels "T0001","T0002",..: 1 2 3 4 5 6 7 8 9 10 ...
Pełny model kandydata
model.loaded.fit <- lmer(RT ~ ASCORE*HSCORE*MVMNT*DRUG*FULLNSS
+ (1|PATIENT) + (1|SESSION), data, REML = TRUE)
- Czasy reakcji z badań są grupowane w ramach sesji, które z kolei są grupowane w obrębie pacjentów
- Każdą próbę można scharakteryzować za pomocą dwóch ciągłych zmiennych towarzyszących ASCORE i HSCORE (w zakresie od 1 do 9) oraz odpowiedzi ruchowej (wycofanie lub podejście)
- Sesje charakteryzują się przyjmowaniem narkotyków (placebo lub aktywna farmakologia) oraz pełnością (na czczo lub wcześniej)
Modelowanie i składnia R.
Próbuję określić odpowiedni pełny model z załadowaną średnią strukturą, która może być wykorzystana jako punkt początkowy w strategii wyboru modelu z góry na dół.
Szczegółowe problemy:
- Czy składnia poprawnie określa efekty grupowania i losowe?
- Czy poza tym składni ten model jest odpowiedni dla powyższego projektu wewnątrz tematu?
- Czy pełny model powinien określać wszystkie interakcje stałych efektów, czy tylko te, które naprawdę mnie interesują?
- Nie uwzględniłem współczynnika STIM w modelu, który charakteryzuje konkretny rodzaj bodźca zastosowanego w badaniu, ale którego nie jestem zainteresowany w żaden sposób oszacować - czy powinienem podać, że jako czynnik losowy ma on 123 poziomy i bardzo niewiele punkty danych według rodzaju bodźca?
Odpowiedzi:
Odpowiem na każde twoje pytanie po kolei.
Czy składnia poprawnie określa efekty grupowania i losowe?
Model, który tu pasujesz, jest matematycznie modelem
gdzie
k j iYijk to czas reakcji na obserwację podczas sesji na indywidualnej .k j i
kjiXijk jest wektorem predykcyjnym dla obserwacji podczas sesji na pojedynczym (w modelu, który napisałeś, składa się ze wszystkich głównych efektów i wszystkich interakcji).k j i
i θ i j iηi jest osobą efekt losowy, który indukuje korelacja pomiędzy obserwacjami poczynionymi w tej samej osobie. jest przypadkowy efekt indywidualnej „s sesji a to termin błąd resztki.i θij i ε i j kj εijk
Jak zauważono na stronie 14-15 tutaj, ten model jest poprawny do określania, że sesje są zagnieżdżone w poszczególnych osobach, tak jest w twoim opisie.
Czy poza tym składni ten model jest odpowiedni dla powyższego projektu wewnątrz tematu?
Myślę, że ten model jest rozsądny, ponieważ szanuje strukturę zagnieżdżania w danych i uważam, że jednostka i sesja są rozsądnie postrzegane jako efekty losowe, jak twierdzi ten model. Powinieneś spojrzeć na relacje między predyktorami a odpowiedzią na wykresach rozrzutu itp., Aby upewnić się, że predyktor liniowy ( ) jest poprawnie określony. Ewentualnie należy również zbadać inną standardową diagnostykę regresji.Xijkβ
Czy pełny model powinien określać wszystkie interakcje stałych efektów, czy tylko te, które naprawdę mnie interesują?
Myślę, że rozpoczęcie od tak mocno nasyconego modelu może nie być świetnym pomysłem, chyba że ma to sens merytoryczny. Jak powiedziałem w komentarzu, będzie to miało tendencję do przekraczania określonego zestawu danych i może powodować, że wyniki będą mniej ogólne. Jeśli chodzi o wybór modelu, jeśli zaczniesz od modelu całkowicie nasyconego i zrobisz zaznaczenie wstecz (do czego niektórzy ludzie na tej stronie, nie bez powodu, sprzeciwiają się ), musisz przestrzegać hierarchii w modelu. Oznacza to, że jeśli wyeliminujesz interakcję niższego poziomu z modelu, powinieneś również usunąć wszystkie interakcje wyższego poziomu obejmujące tę zmienną. Aby uzyskać więcej dyskusji na ten temat, zobacz połączony wątek.
Nie uwzględniłem współczynnika STIM w modelu, który charakteryzuje konkretny rodzaj bodźca zastosowanego w badaniu, ale którego nie jestem zainteresowany w żaden sposób oszacować - czy powinienem podać, że jako czynnik losowy ma on 123 poziomy i bardzo niewiele punkty danych według rodzaju bodźca?
Trzeba przyznać, że nic nie wiem o aplikacji (więc weź to z odrobiną soli), co brzmi jak ustalony efekt, a nie efekt losowy. Oznacza to, że rodzaj leczenia brzmi jak zmienna odpowiadająca ustalonemu przesunięciu średniej odpowiedzi, a nie coś, co wywołałoby korelację między podmiotami, które miały ten sam typ bodźca. Ale fakt, że jest to współczynnik poziomu 123, sprawia, że wejście do modelu jest uciążliwe. Przypuszczam, że chciałbym wiedzieć, jak duży efekt byś tego oczekiwał. Niezależnie od wielkości efektu, nie spowoduje to błędu w oszacowaniach nachylenia, ponieważ jest to model liniowy, ale pominięcie go może spowodować, że standardowe błędy będą większe niż w innym przypadku.
źródło