W modelu Poissona, jaka jest różnica między wykorzystaniem czasu jako współzmiennej lub przesunięcia?

Niedawno odkryłem, jak modelować ekspozycje w czasie za pomocą dziennika (np.) Czasu jako przesunięcia w regresji Poissona.

Zrozumiałem, że przesunięcie odpowiada czasowi zmiennemu towarzyszącemu o współczynniku 1.

Chciałbym lepiej zrozumieć różnicę między używaniem czasu jako przesunięcia lub jako normalnej współzmiennej (dlatego oszacowanie współczynnika). W jakiej sytuacji powinienem zastosować jedną z tych metod?

AKTUALIZACJA: Nie wiem, czy jest to interesujące, ale przeprowadziłem walidację dwóch metod przy użyciu losowo podzielonych danych powtórzonych 500 razy i zauważyłem, że użycie metody przesunięcia prowadzi do większego błędu testu.

poisson-regression predictor offset Bakaburg
źródło

Odpowiedzi:

Przesunięć można używać w dowolnym modelu regresji, ale są one znacznie częstsze podczas pracy z danymi zliczania dla zmiennej odpowiedzi. Przesunięcie to tylko zmienna, która w modelu musi mieć współczynnik . (Zobacz także ten doskonały wątek CV: Kiedy zastosować przesunięcie w regresji Poissona? ) $1$

Przy prawidłowym zastosowaniu z danymi zliczania pozwoli to modelować stawki zamiast zliczeń . Jeśli jest to interesujące, to jest coś do zrobienia. Jest to zatem kontekst, w którym najczęściej stosuje się przesunięcia. Rozważmy Poissona GLiM z linkiem dziennika (który jest linkiem kanonicznym).

\begin{aligned} \ln (λ) & = β_{0} + β_{1} X & (c o u n t s) \\ \ln (\frac{λ}{t i m e}) & = β_{0} + β_{1} X & (r a t e s) \\ \Rightarrow \\ \ln (λ) - \ln (t i m e) & = β_{0} + β_{1} X \\ \ln (λ) & = β_{0} + β_{1} X + 1 \times \ln (t i m e) & (s t i l l r a t e s) \\ \neq \\ \ln (λ) & = β_{0} + β_{1} X + β_{2} \times \ln (t i m e) w h e n β_{2} \neq 1 & (c o u n t s a g a i n) \end{aligned}

$\begin{align} \ln(\lambda) &= \beta_0 + \beta_1X & ({\rm counts})& \\ \ln\bigg(\frac{\lambda}{{\rm time}}\bigg) &= \beta_0 + \beta_1X & ({\rm rates})& \\ &\Rightarrow \\ \ln(\lambda) - \ln({\rm time}) &= \beta_0 + \beta_1X \\ \ln(\lambda) &= \beta_0 + \beta_1X + 1\times \ln({\rm time}) & ({\rm still\ rates})& \\ &\ne \\ \ln(\lambda) &= \beta_0 + \beta_1X + \beta_2\times \ln({\rm time})\quad {\rm when}\ \beta_2 \ne 1 & ({\rm counts\ again})& \end{align}$

(Jak widać, kluczem do prawidłowego zastosowania przesunięcia jest przesunięcie , a nie .) $\ln({\rm time})$ $\rm time$

Kiedy współczynnik nie wynosi , przestajesz modelować stawki. Ale ponieważ zapewnia znacznie większą elastyczność dopasowania danych, modele, które nie używają jako przesunięcia, zwykle pasują lepiej (chociaż mogą również overfit). $\ln({\rm time})$ $1$ $\beta_2 \in (-\infty, 1)\cup (1, \infty)$ $\ln({\rm time})$

To, czy powinieneś modelować liczby czy stawki, naprawdę zależy od tego, jakie jest twoje zasadnicze pytanie. Powinieneś modelować ten, który odpowiada temu, co chcesz wiedzieć.

$\beta_2$ $1$ $1$ $\beta_2 > 1$ $\beta_2 < 1$

$\beta_2 > 1$ $\beta_2 < 1$ , oznacza to, że tempo wydarzeń zwalnia.

Dla konkretnego przykładu tego pierwszego, wyobraź sobie skan, który liczy liczbę komórek rakowych w pewnym okresie po chirurgicznym usunięciu pierwotnego guza. Dla niektórych pacjentów upłynęło więcej czasu od operacji i chciałeś to wziąć pod uwagę. Odkąd rak powróci na dalszy plan, zacznie on wykładniczo rosnąć, a tempo będzie rosło wraz z upływem czasu od operacji bez dodatkowego leczenia.

Konkretnym przykładem tego ostatniego jest liczba osób, które umierają w wyniku wybuchu choroby, na którą nie mamy leczenia. Na początku wiele osób umiera, ponieważ byli bardziej podatni na tę chorobę lub mieli już upośledzony układ odpornościowy itp. Z czasem, ponieważ populacja pozostałych ludzi jest mniej podatna na tę chorobę, wskaźnik będzie się zmniejszał. (Przepraszamy, ten przykład jest bardzo chorobliwy.)

gung - Przywróć Monikę
źródło

y = t i m e * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$

y = {t i m e}^{β_{t i m e}} * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}^{\beta_{{\rm time}}}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$

Dlaczego więc należy zakładać, że związek między czasem a wydarzeniami jest liniowy i rośnie? Czy nie byłoby lepiej oszacować kształt takiej relacji w każdym przypadku? Mam jeszcze dwa pytania: 1. co by to znaczyło zamiast logować czas przekształcenia jako zmienną towarzyszącą? 2. (może powinienem edytować pytanie lub zadać o to nowe). Przeczytałem, że modeli Poissona można faktycznie używać również bez liczb całkowitych. W ten sposób mógłbym pisać w R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) i mieć takie same wyniki, jakie mam przy użyciu offset (log (czas)). Próbowałem tego, ale otrzymuję różne współczynniki.

Bakaburg

Dystans Poissona jest tylko dla liczb całkowitych; nie należy wpisywać ułamka na LHS. Nieużywanie transformacji dziennika oznacza modelowanie częstości zdarzeń w wykładniczym okresie czasu, co prawdopodobnie nigdy nie będzie sensowne w świecie rzeczywistym.

Gung - Przywróć Monikę

@ Bakaburg, czas prawdopodobnie jest z nimi skorelowany. Nie różni się niczym od żadnej innej sytuacji modelowania regresji. Nie widzę tutaj problemu. Albo jesteś zainteresowany modelowaniem średnich stawek, albo nie.

Gung - Przywróć Monikę

@tatami, jeśli zamierzasz wykorzystać czas jako zmienną towarzyszącą (zamiast przesunięcia), nie musisz rejestrować czasu. Jeśli jednak chcesz porównać swój wynik z przesunięciem, musisz użyć dziennika, aby je porównać.

Gung - Przywróć Monikę

Przesunięcia czasu można zwykle postrzegać jako model szacujący częstość występowania zdarzenia na jednostkę czasu, z przesunięciem kontrolującym czas obserwacji różnych obiektów.

W modelach Poissona zawsze szacujesz tempo, że coś się dzieje, ale nigdy nie możesz zaobserwować tego tempa bezpośrednio. Państwo nie dostać obserwować liczbę razy, że zdarzenie na jakiś czas. Przesunięcie tworzy połączenie między tymi dwiema koncepcjami.

Na przykład obserwowałeś osoby strzelające do koszy przez różny czas i policzyłeś liczbę udanych koszy dla każdego obiektu. To, co naprawdę Cię interesuje, jak często każdy przedmiot tonie kosz, tj. Liczba udanych koszy, które każdy temat spodziewa się zatopić z każdą minutą, ponieważ jest to dość obiektywna miara ich umiejętności. Liczba koszy, które faktycznie zatopiłeś, byłaby wówczas szacunkową stawką razy, jak długo obserwowałeś próbę podmiotu. Możesz więc myśleć w kategoriach jednostek odpowiedzi, liczby koszy na minutę .

Trudno wyobrazić sobie sytuację, w której wykorzystałbyś czas obserwowany jako zmienną towarzyszącą w regresji poissona, ponieważ ze swojej natury szacujesz szybkość.

Na przykład, jeśli chcę ocenić wpływ bycia Amerykaninem vs Europejczykiem (bardzo głupiutki przykład) na liczbę koszyków, dodanie czasu jako współzmiennej pozwoliłoby mi ocenić ten efekt „niezależnie” od upływu czasu strzelania, prawda? to? Ponadto dałoby mi to oszacowanie wpływu czasu na wynik.

Oto przykład, który, mam nadzieję, podkreśla niebezpieczeństwo tego. Załóżmy, że Amerykanie i Europejczycy, tak naprawdę, zatapiają tę samą liczbę koszy co minutę. Ale powiedzmy, że obserwowaliśmy każdego Europejczyka dwa razy dłużej niż każdego Amerykanina, więc średnio zaobserwowaliśmy dwa razy więcej koszy dla każdego Europejczyka.

Jeśli skonfigurujemy model obejmujący parametry zarówno dla obserwowanego czasu, jak i wskaźnik „jest europejski”, wówczas oba te modele wyjaśniają dane:

E (baskets) = 2 c t + 0 x_{Eropean}

$E(\text{baskets}) = 2 c t + 0 x_{\text{Eropean}}$

E (baskets) = 0 t + 2 c x_{Eropean}

$E(\text{baskets}) = 0 t + 2 c x_{\text{Eropean}}$

$c$

Jako statystycy naprawdę chcemy, aby w tej sytuacji nasz model informował nas, że nie ma statystycznej różnicy między stopniem, w jakim Europejczycy robią koszyki, a tym, co Amerykanie robią koszyki. Ale nasz model tego nie zrobił i jesteśmy zdezorientowani.

Problem polega na tym, że wiemy coś, czego nasz model nie wie. Oznacza to, że wiemy, że jeśli będziemy obserwować tę samą osobę przez dwa razy więcej czasu, że w oczekiwaniu zrobią dwa razy więcej koszy. Ponieważ wiemy o tym, musimy powiedzieć o tym nasz model. To właśnie osiąga przesunięcie.

Być może zastosowanie metody offsetowej jest odpowiednie, gdy wiemy, że zdarzenia zdarzają się jednolicie w czasie!

Tak, ale jest to założenie samego modelu Poissona . Ze strony wikipedii w dystrybucji poissona

rozkład Poissona, nazwany na cześć francuskiego matematyka Siméona Denisa Poissona, jest dyskretnym rozkładem prawdopodobieństwa, który wyraża prawdopodobieństwo wystąpienia określonej liczby zdarzeń w ustalonym przedziale czasu i / lub przestrzeni, jeśli zdarzenia te występują ze znaną średnią częstotliwością i niezależnie od czas od ostatniego zdarzenia .

Matthew Drury
źródło

Dziękuję za odpowiedź. Ale użycie czasu jako zmiennej towarzyszącej nie dałoby mi tej samej odpowiedzi? Na przykład, jeśli chcę ocenić wpływ bycia Amerykaninem vs Europejczykiem (bardzo głupiutki przykład) na liczbę koszyków, dodanie czasu jako współzmiennej pozwoliłoby mi ocenić ten efekt „niezależnie” od upływu czasu strzelania, prawda? to? Ponadto dałoby mi to oszacowanie wpływu czasu na wynik. Czasami czas nie zawsze jest ważny dla zmiennej zliczającej, na przykład gdy zdarzenia zdarzają się na początku okresu obserwacji.

Bakaburg

Być może zastosowanie metody offsetowej jest odpowiednie, gdy wiemy, że zdarzenia zdarzają się jednolicie w czasie!

Bakaburg

@ Bakaburg Dodałem próbę odpowiedzi. Mam nadzieję, że to pomoże!

Matthew Drury