Używam modelu mieszanego w R
( lme4
) do analizy niektórych danych z powtarzanymi pomiarami. Mam zmienną odpowiedzi (zawartość włókna w kale) i 3 stałe efekty (masa ciała itp.). Moje badanie ma tylko 6 uczestników, z 16 powtarzanymi pomiarami dla każdego z nich (chociaż dwóch ma tylko 12 powtórzeń). Podmiotami są jaszczurki, którym podawano różne kombinacje jedzenia w różnych „zabiegach”.
Moje pytanie brzmi: czy mogę użyć ID przedmiotu jako losowego efektu?
Wiem, że jest to zwykły sposób działania w modelach mieszanych efektów podłużnych, w celu uwzględnienia losowo dobranej natury badanych oraz faktu, że obserwacje w obrębie badanych będą bardziej skorelowane niż między badanymi. Lecz traktowanie identyfikatora podmiotu jako efektu losowego obejmuje oszacowanie średniej i wariancji dla tej zmiennej.
Ponieważ mam tylko 6 osób (6 poziomów tego czynnika), czy to wystarczy, aby uzyskać dokładną charakterystykę średniej i wariancji?
Czy fakt, że mam kilka powtórzonych pomiarów dla każdego przedmiotu, pomaga w tym względzie (nie rozumiem, jak to się liczy)?
Wreszcie, jeśli nie mogę użyć identyfikatora podmiotu jako efektu losowego, czy włączenie go jako efektu stałego pozwoli mi kontrolować fakt, że powtarzałem pomiary?
Edycja: Chciałbym tylko wyjaśnić, że kiedy mówię „czy mogę” użyć identyfikatora podmiotu jako losowego efektu, mam na myśli „czy to dobry pomysł”. Wiem, że mogę dopasować model tylko z 2 poziomami, ale na pewno byłoby to nie do obrony? Pytam, w którym momencie sensownie jest myśleć o traktowaniu pacjentów jako efektów losowych? Wydaje się, że literatura mówi, że 5-6 poziomów jest dolną granicą. Wydaje mi się, że szacunki średniej i wariancji efektu losowego nie byłyby bardzo precyzyjne, dopóki nie będzie 15+ poziomów czynników.
źródło
„Przeważnie nieszkodliwa ekonometria” autorstwa Angrista i Pischke'a ma sekcję zatytułowaną „Mniej niż 42 gromady”, w której częściowo żartobliwie mówią:
Dlatego, zgodnie z ... powiedzeniem, że odpowiedź na życie, wszechświat i wszystko ma 42, uważamy, że pytanie brzmi: ile klastrów wystarcza do wiarygodnego wnioskowania przy użyciu standardowej korekty klastrów [podobnie jak estymator wariancji w GEE]?
Mój instruktor ekonometrii odpowiadał na pytania takie jak twoje: „Ameryka jest wolnym krajem, możesz robić, co chcesz. Ale jeśli chcesz opublikować swój artykuł, musisz być w stanie obronić to, co zrobiłeś. „ Innymi słowy, prawdopodobnie będziesz w stanie uruchomić kod R lub Stata lub HLM lub Mplus lub SAS PROC GLIMMIX z 6 podmiotami (i przełączyć się na te alternatywne pakiety, jeśli jeden z wybranych nie uruchomi tego), ale prawdopodobnie będziesz mieć bardzo trudny czas obrony tego podejścia i uzasadnienia testów asymptotycznych.
Uważam, że domyślnie uwzględnienie zmiennej jako losowego nachylenia oznacza również uwzględnienie tego jako efektu stałego i musisz przeskakiwać przez wiele pętli składniowych, jeśli chcesz mieć to jako efekt losowy za pomocą zero. To rozsądny wybór, który dokonali dla ciebie programiści.
źródło
Można również użyć mieszanego modelu bayesowskiego - w takim przypadku niepewność w oszacowaniu efektów losowych jest w pełni uwzględniona w obliczeniach wiarygodnych przedziałów prognozy 95%. Na przykład nowy pakiet
brms
i funkcja Rbrm
umożliwiają bardzo łatwe przejście zlme4
częstego modelu mieszanego do modelu Bayesowskiego, ponieważ ma on prawie identyczną składnię.źródło
Nie użyłbym modelu efektów losowych z tylko 6 poziomami. Modele wykorzystujące 6-poziomowy efekt losowy mogą być czasami uruchamiane przy użyciu wielu programów statystycznych i czasami dają obiektywne szacunki, ale:
Ten problem został rozwiązany w większości standardowych podręczników w terenie, a w pewnym stopniu rozwiązałeś je w swoim pytaniu. Nie sądzę, że dam ci nowe informacje.
źródło
lme4
modelach mieszanych i często uruchamiam je na próbkach o podobnych rozmiarach jak OP (pracuję również z zestawami danych biologicznych).Minęło dużo czasu od pierwotnego pytania, ale pomyślałem, że mogę dodać kilka punktów dotyczących wyboru modelu.
1 - Dopóki model jest zidentyfikowany (tzn. Masz stopnie swobody w przestrzeni parametrów), powinieneś być w stanie WYPRÓBOWAĆ, aby dopasować model. W zależności od metody optymalizacji model może być zbieżny lub nie. W każdym razie nie próbowałbym uwzględnić więcej niż 1 lub 2 losowych efektów i zdecydowanie nie więcej niż 1 interakcja między poziomami. W konkretnym przypadku przedstawionego tutaj problemu, jeśli podejrzewamy, że interakcja między charakterystycznymi cechami jaszczurki (np. Wiekiem, rozmiarem itp.) A grupą cech charakterystycznych leczenia / miary 6 może nie wystarczyć do dokonania wystarczająco dokładnych szacunków.
2 - Jak wspomniano w kilku odpowiedziach, problemem może być konwergencja. Jednak moje doświadczenie jest takie, że chociaż dane z nauk społecznych mają ogromny problem z konwergencją z powodu problemów pomiarowych, nauki przyrodnicze, a zwłaszcza biochemiczne powtarzane pomiary, mają znacznie mniejsze błędy standardowe. Wszystko zależy od procesu generowania danych. W danych społecznych i ekonomicznych musimy pracować na różnych poziomach abstrakcji. W przypadku danych biologicznych i chemicznych, a z pewnością astronomicznych błąd pomiaru danych stanowi mniejszy problem.
źródło