Dlaczego trudno jest uwzględnić niepewność w efektach losowych podczas prognozowania z modeli mieszanych?

Istnieje kilka wątków na temat R-sig-ME na temat uzyskiwania przedziałów ufności dla prognoz przy użyciu lme4iw nlmeR. Na przykład tutaj i tutaj w 2010 r., W tym komentarz Dougalsa Batesa, jednego z autorów obu pakietów. Waham się, by zacytować go dosłownie, z obawy, że zostaną wyjęci z kontekstu, ale tak czy inaczej, jeden komentarz, który pisze

„Łączysz parametry i zmienne losowe w swoich przewidywaniach i nie jestem pewien, co to znaczy oceniać zmienność tych prognoz. Bayesian może być w stanie to zrozumieć, ale nie mogę się tym zająć. „ https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Wiem, że pakiet Bayesian glmm MCMCglmmmoże generować wiarygodne przedziały dla prognoz.

Ostatnio w wersji rozwojowej lme4github podano predictmetodę, ale towarzyszy jej następujący komentarz:

„@ Uwaga: Nie ma opcji obliczania standardowych błędów prognoz, ponieważ trudno jest zdefiniować wydajną metodę uwzględniającą niepewność w parametrach wariancji; zalecamy do tego zadania \ code {\ link {bootMer}}.” https://github.com/lme4/lme4/blob/master/R/predict.R

Dlaczego więc trudno jest uwzględnić niepewność w efektach losowych podczas prognozowania z modeli mieszanych w otoczeniu częstych?

mixed-model P Sellaz
źródło

Odpowiedzi:

Nie jestem pewien co do komentarza do metody prognozowania, ale główny problem dotyczy generowania łatwo interpretowalnych miar wariancji, a nie miar wariancji per se. Bates nie komentuje w pierwszym cytacie, czy możesz to zrobić, tylko co to oznacza.

Weź prosty wielopoziomowy model dwupoziomowego projektu z powtarzanymi pomiarami. Załóżmy, że masz następujące dane, w których każdy wiersz jest tematem:

wprowadź opis zdjęcia tutaj

W lmermodelu można wyrazić jako:

y ~ x + (1|subject)

Przewidujesz wartość y na podstawie x jako stały efekt (różnica między A i B); i przechwytuje efekt losowy **. Przyjrzyj się uważnie wykresowi i zauważ, że chociaż istnieje zmienność efektu x dla każdego obiektu (nachylenie każdej linii), jest ona stosunkowo niewielka w porównaniu do zmienności między podmiotami (wysokość każdej linii).

Model analizuje te dwa zestawy zmienności i każdy z nich ma znaczenie. Możesz użyć efektów losowych, aby przewidzieć wysokości linii, a możesz użyć stałych efektów x, aby przewidzieć nachylenia. Możesz nawet użyć tych dwóch razem do pracy z naszymi indywidualnymi wartościami y. Ale to, czego nie możesz zrobić, to naprawdę powiedzieć coś znaczącego w odniesieniu do twojego modelu , łącząc ze sobą zmienność nachyleń i wysokości linii. Musisz osobno mówić o zmienności nachyleń i wysokości linii. To cecha modelu, a nie zobowiązanie.

Będziesz miał zmienność działania x, która jest stosunkowo łatwa do oszacowania. Można powiedzieć coś na temat przedziału ufności wokół tego. Zauważ jednak, że ten przedział ufności będzie miał niewielki związek z przewidywaniem jakiejkolwiek konkretnej wartości y, ponieważ na wartość y wpływa kombinacja efektu i wariancji podmiotu, która różni się od zmienności samego efektu.

Kiedy Bates pisze rzeczy, które zacytowałeś, wyobrażam sobie, że często myśli o znacznie bardziej złożonych projektach wielopoziomowych, do których nawet nie podchodzi. Ale nawet jeśli weźmiesz pod uwagę ten prosty przykład, sprowadza się do zastanowienia, jaki rodzaj prawdziwego znaczenia można wyciągnąć z połączenia wszystkich miar wariancji.

** Dla uproszczenia zignorowałem stały efekt przechwytywania i po prostu traktuję go jako efekt losowy. Można wyciągnąć podobne wnioski z jeszcze prostszego modelu tylko z przypadkowym i stałym przechwytywaniem, ale myślę, że trudniej byłoby to przekazać. W takim przypadku ponownie ustalony efekt i efekt losowy są analizowane z jakiegoś powodu i oznaczają różne rzeczy, a połączenie ich zmienności z powrotem dla przewidywanych wartości powoduje, że zmienność ta nie ma sensu w odniesieniu do modelu.

Jan
źródło

Więc słyszę, jak mówisz, że sprowadza się to do tej samej starej myśli o tym, że nie jesteśmy pewni, czy chcemy traktować wariancję przedmiotu jako błąd, czy podzielić go osobno i udawać, że nie istnieje? Czy to prawda?

russellpierce

Nigdy nie słyszałem tej starej piły. Nigdy nie słyszałem, że powinieneś udawać, że wariancja tematu nie istnieje. Ale przypuszczam, że ma to związek z tym konkretnym przykładem. Model analizuje wariancję. Ta funkcja procesu modelowania pozwala zrozumieć model. Jeśli ponownie zrekombinujesz wariancję, przede wszystkim pokonasz cel modelu. Nie twierdzę, że zignoruj wariancję podmiotu, tylko losowy efekt podmiotu jest osobny. Możesz przeczytać Blouin i Riopelle (2005) i zobaczyć, jak zmienia się znaczenie SE po połączeniu wariancji.

John,

Być może czegoś mi brakuje, ale wygląda na to, że ludzie w przód i w tył mają wpływ na to, jaki rozmiar efektu najlepiej zastosować w analizie ANOVA w obrębie badanych / powtarzanych pomiarów i jak najlepiej wykreślić te przedziały ufności ... ale przypuszczam, że po tym przeczytaj rzecz, na którą mnie wskazałeś, nie będę tęsknił za czymkolwiek, za czym tęsknię. :) Dzięki.

russellpierce

Jak powiedziałem, są spokrewnieni. Nie wiedziałem, że tam iz powrotem, chciałbym zobaczyć referencję. Faktem jest, że dwa CI i efekty, o których mówisz, oznaczają różne rzeczy. Więc używasz tego, co przekazuje to, co chcesz mieć na myśli. I musisz sprawić, by wydawały się rozsądne. [Trudno argumentować (choć niektórzy mają), że umieszczenie CI uwzględniającej wariancję podmiotu wokół średniej w projekcie powtarzanych pomiarów i użycie go do powiedzenia czegoś o efekcie powtarzanych pomiarów jest sensowne.]

John

Nie widziałem nic w literaturze, po prostu dużo nieformalnego wykręcania rąk i próbuje zgadnąć, co pomyśli recenzent du Jour.

russellpierce

Przez długi czas zastanawiałem się nad pozornie powszechnym przekonaniem, że istnieje pewna fundamentalna różnica w ustalonych i losowych efektach (ogólnie nieliniowych) modeli efektów mieszanych. Przekonanie to zostało na przykład wyrażone przez Batesa w następującej odpowiedzi

https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

Bates wyraźnie stwierdza, że uważa, że istnieje zasadnicza różnica między efektami stałymi i losowymi, więc nie można ich łączyć. Myślę, że się myli i mam nadzieję przekonać kilku czytelników o alternatywnym punkcie widzenia. Stosuję podejście częstokroć, więc chcę zdefiniować pojęcie prawdopodobieństwa profilu dla funkcji zarówno efektów stałych, jak i losowych. Aby motywować dyskusję, załóżmy, że mamy dwuparametrowy model z parametrami xi (jak dotąd brak efektów losowych). Niech będzie funkcją prawdopodobieństwa, w której pomijamy wszelkie odniesienia do danych. Niech $L(x,u)$ $g(x,u)$ $P_g(t)$ $g$

P_{g} (t) = max_{x, u} {L (x, u) | g (x, u) = t} \eqno (1)

$P_g(t)=\max_{x,u} \{L(x,u)\ |\ g(x,u)=t \} \eqno(1)$

$p(u)$ $g$

P_{g} (t) = max_{x, u} {L (x, u) p (u) | g (x, u) = t} \eqno (2)

$P_g(t)=\max_{x,u} \{L(x,u)p(u)\ |\ g(x,u)=t \} \eqno(2)$

u

$u$

F (x)

$F(x)$

F (x) = \int L (x, u) p (u) d u

$F(x) = \int L(x,u)p(u)du$

u

$u$

F (x)

$F(x)$

g (x, u)

$g(x,u)$

$g(x,u)$ $u$ $n$ $u=(u_1,u_2,...,u_{n-1},u_n)$ $g(x,u)$ $u_n$ $g(x,u)=u_n$ $u_1,u_2,...,u_{n-1}$

F (x, u_{n}) = \int L (x, u_{1}, . . ., u_{n}) p (u_{1}, . . ., u_{n})) d u_{1} d u_{2} . . . d u_{n - 1} \eqno (4)

$F(x,u_n) = \int L(x,u_1,...,u_n)p(u_1,...,u_n))du_1du_2...du_{n-1}\eqno(4)$

P_{g} (t) = max_{x, u_{n}} {F (x, u_{n}) | u_{n} = t} \eqno (3)

$P_g(t)=\max_{x,u_n} \{F(x,u_n) | u_n=t \} \eqno(3)$

(3)

$(3)$

g (x, u)

$g(x,u)$

F (x, u_{n})

$F(x,u_n)$

(4)

$(4)$

F (x, s) = lim_{ϵ \to 0} \frac{1}{ϵ} \int_{{(x, u_{n}) | s - ϵ / 2 < g (x, u_{n}) < s + ϵ / 2}} L (x, u_{1}, . . ., u_{n}) p (u_{1}, . . ., u_{n})) d u_{1} d u_{2} . . . d u_{n} \eqno (5)

$F(x,s) = \lim_{\epsilon\rightarrow 0}{1\over\epsilon} \int_{\{(x,u_n) | s-\epsilon/2<g(x,u_n)<s+\epsilon/2\}} L(x,u_1,...,u_n)p(u_1,...,u_n))du_1du_2...du_n\eqno(5)$

g (x, u) = u_{n}

$g(x,u)=u_n$

(5)

$(5)$

F (x, s) = lim_{ϵ \to 0} \frac{1}{ϵ} \int_{{(x, u_{n}) | s - ϵ / 2 < u_{n} < s + ϵ / 2}} F (x, u_{n}) d u_{n} \eqno (6)

$F(x,s)=\lim_{\epsilon\rightarrow 0}{1\over\epsilon} \int_{\{(x,u_n) | s-\epsilon/2<u_n<s+\epsilon/2\}} F(x,u_n)du_n\eqno(6)$

$g(x,u)$ $F(x,s)$ $(5)$

P_{g} (s) = max_{x, u} {F (x, s) | g (x, u) = s} \eqno (3)

$P_g(s)=\max_{x,u} \{F(x,s) | g(x,u)=s \} \eqno(3)$

$F(x,s)$ $\hat x(s),\hat u(s)$

\hat{x} (s), \hat{u} (s) = max_{x, u} {L (x, u) p (u) | g (x, u) = s}

$\hat x(s),\hat u(s)= \max_{x,u} \{L(x,u)p(u)\ |\ g(x,u)=s\}$

- L (x, u) p (u)

$-L(x,u)p(u)$

x

$x$

u

$u$

$g$ $m+n-1$ $n+m$ $m$ $n$ $n$ $du_1\wedge du_2\wedge\ldots\wedge du_n$ $\hat x(s),\hat u(s)$ $g_{x_n}(\hat x(s),\hat u(s))\ne 0$ $\hat x(s)=0$ $\hat u(s)=0$

(x_{1}, x_{2}, \dots, x_{m - 1}, u_{1}, u_{2}, \dots, u_{n}) \to (x_{1}, x_{2}, \dots, x_{m - 1}, \frac{- \sum_{i = 1}^{m - 1} g_{x_{i}} x_{i} - \sum_{i = 1}^{n} g_{u_{i}} u_{i}}{g_{x_{m}}}, u_{1}, u_{2}, \dots, u_{n})

$(x_1,x_2,\ldots,x_{m-1},u_1,u_2,\ldots,u_n) \rightarrow (x_1,x_2,\ldots,x_{m-1}, {-\sum_{i=1}^{m-1}g_{x_i}x_i-\sum_{i=1}^ng_{u_i}u_i\over g_{x_m}}, u_1,u_2,\ldots,u_n)$

g_{x_{i}}

$g_{x_i}$

g

$g$

x_{i}

$x_i$

m + n - 1

$m+n-1$

g

$g$

d u_{i}

$du_i$

T_{i, j} = H_{i + m, j + m} + \frac{g_{u_{i}} g_{u_{j}}}{{g_{x_{m}}}^{2}} H_{m, m} \rm for 1 <= i, j <= n

$T_{i,j} =H_{i+m,j+m}+{g_{u_i}g_{u_j}\over {g_{x_m}}^2}H_{m,m}\quad \hbox{\rm for} \ 1<=i,j<=n$

$T$

L (\hat{x} (s), \hat{u} (s)) | - T |^{\frac{1}{2}}

$L(\hat x(s),\hat u(s))|-T|^{1\over2}$

| \cdot |

$|\cdot|$

g

$g$

ϵ \to 0

$\epsilon\rightarrow 0$

ϵ / ‖ \nabla g (\hat{x} (s), \hat{u} (s)) ‖

$\epsilon/\|\nabla g(\hat x(s),\hat u(s))\|$

\nabla g (\hat{x} (s), \hat{u} (s)))

$\nabla g(\hat x(s),\hat u(s)))$

g

$g$

(g_{x_{1}}, g_{x_{2}}, \dots, g_{x_{m}}, g_{u_{1}}, g_{u_{2}}, \dots, g_{u_{n}})

$( g_{x_1}, g_{x_2}, \ldots, g_{x_m}, g_{u_1}, g_{u_2}, \ldots, g_{u_n})$ so that the likelihood value on the level set of

g

$g$ is given by

\frac{L (\hat{x} (s), \hat{u} (s)) | - T |^{\frac{1}{2}}}{‖ \nabla g (\hat{x} (s), \hat{u} (s)) ‖}

${L(\hat x(s),\hat u(s))|-T|^{1\over2}\over \|\nabla g(\hat x(s),\hat u(s))\|}$ This is the correct approximation to use for calculating the profile likelihood.

dave fournier
źródło