Czy w modelach mieszanych można uwzględnić czas jako predyktor?

10

Zawsze uważałem, że czas nie powinien być wykorzystywany jako predyktor w regresjach (w tym gam), ponieważ wtedy po prostu „opisałby” sam trend. Jeśli celem badań jest znalezienie parametrów środowiskowych, takich jak temperatura itp., Które wyjaśniają wariancję, powiedzmy, aktywności zwierzęcia, to zastanawiam się, w jaki sposób można wykorzystać czas? jako proxy dla niezmierzonych parametrów?

Oto niektóre trendy w czasie dotyczące danych dotyczących aktywności morświnów: -> Jak radzić sobie z przerwami w szeregu czasowym podczas wykonywania GAMM?

mój problem jest taki: kiedy uwzględniam czas w moim modelu (mierzony w dniach julijskich), wtedy 90% wszystkich innych parametrów staje się nieistotnych (wyrzucanie ich przez ts wygładza się z mgcv). Jeśli zostawię czas, to niektóre z nich są znaczące ...

Pytanie brzmi: czy czas jest dozwolony jako predyktor (może nawet potrzebny?), Czy może to popsuć moją analizę?

Z góry bardzo dziękuję

Jens
źródło

Odpowiedzi:

12

Czas jest dozwolony; czy to będzie potrzebne, będzie zależeć od tego, co próbujesz wymodelować? Problem, jaki masz, polega na tym, że masz zmienne towarzyszące, które razem wydają się pasować do trendu w danych, co Czas może zrobić równie dobrze, ale przy użyciu mniejszej swobody - stąd są one odrzucane zamiast Czasu.

Jeśli celem jest modelowanie systemu, związek między odpowiedzią a zmiennymi towarzyszącymi w czasie, a nie modelowanie, jak odpowiedź zmienia się w czasie, to nie uwzględniaj Czasu jako współzmiennej. Jeśli celem jest modelowanie zmiany średniego poziomu odpowiedzi, uwzględnij Czas, ale nie uwzględnij zmiennej towarzyszącej. Z tego, co mówisz, wydaje się, że chcesz tego pierwszego, a nie drugiego, i nie powinien on uwzględniać Czasu w swoim modelu. (Ale rozważ dodatkowe informacje poniżej.)

Jest jednak kilka zastrzeżeń. Aby teoria się utrzymała, reszty powinny być identyczne (lub id, jeśli rozluźnisz założenie niezależności za pomocą struktury korelacji). Jeśli modelujesz odpowiedź jako funkcję zmiennych towarzyszących i nie modelują one odpowiednio żadnego trendu w danych, wówczas reszty będą miały trend, który narusza założenia teorii, chyba że dopasowana struktura korelacji poradzi sobie z tym trendem.

I odwrotnie, jeśli modelujesz trend tylko w odpowiedzi (tylko z uwzględnieniem Czasu), mogą występować systematyczne zmiany reszt (o dopasowanym trendzie), które nie są wyjaśnione przez trend (Czas), co może również naruszać założenia dla pozostałości. W takich przypadkach może być konieczne dołączenie innych zmiennych towarzyszących, aby renderować resztki

Dlaczego to jest problem? Cóż, gdy testujesz, czy składnik trendu, na przykład, jest znaczący lub czy efekty zmiennych towarzyszących są znaczące, zastosowana teoria zakłada, że ​​reszty są iid. Jeśli nie są iid, wówczas założenia nie zostaną spełnione, a Wartości p będą tendencyjne.

Chodzi o to, że musisz modelować wszystkie różne komponenty danych, tak aby reszty odpowiadały stosowanej teorii, aby sprawdzić, czy dopasowane komponenty są istotne, aby były ważne.

Jako przykład weźmy dane sezonowe i chcemy dopasować model, który opisuje długoterminową zmienność danych, trend. Jeśli tylko modelujemy trend, a nie sezonową zmienność cykliczną, nie jesteśmy w stanie sprawdzić, czy dopasowany trend jest znaczący, ponieważ wartości resztkowe nie zostaną uwzględnione. W przypadku takich danych musielibyśmy dopasować model zarówno do składnika sezonowego, jak i trendu komponent oraz model zerowy zawierający tylko komponent sezonowy. Następnie porównamy oba modele za pomocą uogólnionego testu współczynnika wiarygodności, aby ocenić znaczenie dopasowanego trendu. Odbywa się to za pomocą anova()na $lmeskładniki dwóch modeli wyposażonych w użyciu gamm().

Gavin Simpson
źródło
Drogi Gavinie, wielkie dzięki za bardzo pomocne komentarze. Mam nadzieję, że wkrótce mogę ci pomóc;) kiedy próbuję GLRT z anova, mówi mi „naprawiono” obiekt „nie znaleziono” :(
Jens
1
@Jens powinno być połączenie anova(mod1$lme, mod2$lme). Jeśli dopasowujesz model inny niż gaussowski, może to nie działać, ponieważ w metodach PQL nie ma prawdziwego prawdopodobieństwa logarytmu, więc zmień quasi-prawdopodobieństwo w nazwie PQL. Jest to jeden z powodów używania gamm4 , ale musisz coś zrobić ze strukturą korelacji, ponieważ lme4 im na to nie pozwala.
Gavin Simpson,