Przesunięć można używać w dowolnym modelu regresji, ale są one znacznie częstsze podczas pracy z danymi zliczania dla zmiennej odpowiedzi. Przesunięcie to tylko zmienna, która w modelu musi mieć współczynnik . (Zobacz także ten doskonały wątek CV: Kiedy zastosować przesunięcie w regresji Poissona? ) 1
Przy prawidłowym zastosowaniu z danymi zliczania pozwoli to modelować stawki zamiast zliczeń . Jeśli jest to interesujące, to jest coś do zrobienia. Jest to zatem kontekst, w którym najczęściej stosuje się przesunięcia. Rozważmy Poissona GLiM z linkiem dziennika (który jest linkiem kanonicznym).
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+1×ln(time)≠=β0+β1X+β2×ln(time)when β2≠1(counts)(rates)(still rates)(counts again)
(Jak widać, kluczem do prawidłowego zastosowania przesunięcia jest przesunięcie , a nie t i m e .) ln(time)time
Kiedy współczynnik nie wynosi 1 , przestajesz modelować stawki. Ale ponieważ β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) zapewnia znacznie większą elastyczność dopasowania danych, modele, które nie używają ln ( t i m e ) jako przesunięcia, zwykle pasują lepiej (chociaż mogą również overfit). ln(time)1β2∈(−∞,1)∪(1,∞)ln(time)
To, czy powinieneś modelować liczby czy stawki, naprawdę zależy od tego, jakie jest twoje zasadnicze pytanie. Powinieneś modelować ten, który odpowiada temu, co chcesz wiedzieć.
β211β2>1β2<1
β2>1β2<1, oznacza to, że tempo wydarzeń zwalnia.
Dla konkretnego przykładu tego pierwszego, wyobraź sobie skan, który liczy liczbę komórek rakowych w pewnym okresie po chirurgicznym usunięciu pierwotnego guza. Dla niektórych pacjentów upłynęło więcej czasu od operacji i chciałeś to wziąć pod uwagę. Odkąd rak powróci na dalszy plan, zacznie on wykładniczo rosnąć, a tempo będzie rosło wraz z upływem czasu od operacji bez dodatkowego leczenia.
Konkretnym przykładem tego ostatniego jest liczba osób, które umierają w wyniku wybuchu choroby, na którą nie mamy leczenia. Na początku wiele osób umiera, ponieważ byli bardziej podatni na tę chorobę lub mieli już upośledzony układ odpornościowy itp. Z czasem, ponieważ populacja pozostałych ludzi jest mniej podatna na tę chorobę, wskaźnik będzie się zmniejszał. (Przepraszamy, ten przykład jest bardzo chorobliwy.)
Przesunięcia czasu można zwykle postrzegać jako model szacujący częstość występowania zdarzenia na jednostkę czasu, z przesunięciem kontrolującym czas obserwacji różnych obiektów.
W modelach Poissona zawsze szacujesz tempo, że coś się dzieje, ale nigdy nie możesz zaobserwować tego tempa bezpośrednio. Państwo nie dostać obserwować liczbę razy, że zdarzenie na jakiś czas. Przesunięcie tworzy połączenie między tymi dwiema koncepcjami.
Na przykład obserwowałeś osoby strzelające do koszy przez różny czas i policzyłeś liczbę udanych koszy dla każdego obiektu. To, co naprawdę Cię interesuje, jak często każdy przedmiot tonie kosz, tj. Liczba udanych koszy, które każdy temat spodziewa się zatopić z każdą minutą, ponieważ jest to dość obiektywna miara ich umiejętności. Liczba koszy, które faktycznie zatopiłeś, byłaby wówczas szacunkową stawką razy, jak długo obserwowałeś próbę podmiotu. Możesz więc myśleć w kategoriach jednostek odpowiedzi, liczby koszy na minutę .
Trudno wyobrazić sobie sytuację, w której wykorzystałbyś czas obserwowany jako zmienną towarzyszącą w regresji poissona, ponieważ ze swojej natury szacujesz szybkość.
Oto przykład, który, mam nadzieję, podkreśla niebezpieczeństwo tego. Załóżmy, że Amerykanie i Europejczycy, tak naprawdę, zatapiają tę samą liczbę koszy co minutę. Ale powiedzmy, że obserwowaliśmy każdego Europejczyka dwa razy dłużej niż każdego Amerykanina, więc średnio zaobserwowaliśmy dwa razy więcej koszy dla każdego Europejczyka.
Jeśli skonfigurujemy model obejmujący parametry zarówno dla obserwowanego czasu, jak i wskaźnik „jest europejski”, wówczas oba te modele wyjaśniają dane:
Jako statystycy naprawdę chcemy, aby w tej sytuacji nasz model informował nas, że nie ma statystycznej różnicy między stopniem, w jakim Europejczycy robią koszyki, a tym, co Amerykanie robią koszyki. Ale nasz model tego nie zrobił i jesteśmy zdezorientowani.
Problem polega na tym, że wiemy coś, czego nasz model nie wie. Oznacza to, że wiemy, że jeśli będziemy obserwować tę samą osobę przez dwa razy więcej czasu, że w oczekiwaniu zrobią dwa razy więcej koszy. Ponieważ wiemy o tym, musimy powiedzieć o tym nasz model. To właśnie osiąga przesunięcie.
Tak, ale jest to założenie samego modelu Poissona . Ze strony wikipedii w dystrybucji poissona
źródło