Jak interpretować współczynniki w regresji Poissona?

64

Jak mogę zinterpretować główne efekty (współczynniki dla fikcyjnego czynnika) w regresji Poissona?

Załóżmy następujący przykład:

treatment     <- factor(rep(c(1, 2), c(43, 41)), 
                        levels = c(1, 2),
                        labels = c("placebo", "treated"))
improved      <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)),
                        levels = c(1, 2, 3),
                        labels = c("none", "some", "marked"))    
numberofdrugs <- rpois(84, 10) + 1    
healthvalue   <- rpois(84, 5)   
y             <- data.frame(healthvalue, numberofdrugs, treatment, improved)
test          <- glm(healthvalue~numberofdrugs+treatment+improved, y, family=poisson)
summary(test)

Dane wyjściowe to:

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       1.88955    0.19243   9.819   <2e-16 ***
numberofdrugs    -0.02303    0.01624  -1.418    0.156    
treatmenttreated -0.01271    0.10861  -0.117    0.907   MAIN EFFECT  
improvedsome     -0.13541    0.14674  -0.923    0.356   MAIN EFFECT 
improvedmarke    -0.10839    0.12212  -0.888    0.375   MAIN EFFECT 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Wiem, że częstość incydentów numberofdrugswynosi exp(-0.023)=0.977. Ale jak interpretować główne efekty dla zmiennych fikcyjnych?

gung - Przywróć Monikę
źródło
Podobną odpowiedź (ale sformułowaną bardziej matematycznie) można znaleźć tutaj: Jak interpretować oszacowania parametrów w wynikach Poissona GLM .
gung - Przywróć Monikę
Interesujące jest to, że wspomniane pytanie zostało zamknięte jako nie na temat. (Nie zgodziłbym się, że nie jest to temat, ponieważ jakakolwiek odpowiedź dotyczyłaby również wyników każdego programu statystycznego, który zwrócił użytkownikowi tabelę współczynników, i zgadzam się z tobą, że jest blisko warta bycia duplikatem.) Wydaje mi się, że społeczność SO jest zbyt „ścisła” w kwestiach, które wymagają interpretacji danych wyjściowych z R. Nie są tak naprawdę tematem StackOverflow, ponieważ nie ma sugestii, że potrzebna jest pomoc w kodowaniu.
DW
@DWin, nie sądzę, że interpretacja wyników statystycznych jest nie na temat w Cross Validated . Głosowałem za zamknięciem tego pytania jako duplikatu tego. Wydaje mi się, że inni głosowali na OT, ponieważ wydawało im się, że OP „zrzuciło tam swoje wyjście komputerowe i [miał nadzieję, że ktoś] przeprowadzi analizę statystyk dla [nich]”.
gung - Przywróć Monikę
1
@gung: Jasne było, że to nie ty nazywasz to OT. Wasze komentarze w tej kwestii były jasne. (Myślałem, że się z tobą zgadzam.) „Powód” wymieniony na ścisłym głosowaniu jest często decyzją większości lub wielu.
DWin

Odpowiedzi:

56

numberofdrugsWspółczynnik wykładniczy to multiplikatywny termin używany do obliczania szacunku, healthvaluegdy numberofdrugswzrasta o 1 jednostkę. W przypadku zmiennych kategorialnych (czynnikowych) współczynnik wykładniczy jest multiplikatywnym terminem w stosunku do poziomu podstawowego (pierwszego czynnika) dla tej zmiennej (ponieważ R domyślnie stosuje kontrasty leczenia). Jest exp(Intercept)to stopa bazowa, a wszystkie inne szacunki byłyby do niej względne.

W twoim przykładzie oszacowano healthvaluedla kogoś z 2narkotykami, "placebo"i improvement=="none"byłoby (używając dodawania wewnątrz exp jako ekwiwalentu mnożenia):

 exp( 1.88955 + 2*-0.02303 + 0 + 0 )
 [1] 6.318552

Podczas gdy ktoś na 4leki, "treated"oraz "some"poprawa miałaby szacunkowo healthvalueod

exp( 1.88955 + 4*-0.02303 + -0.01271 + -0.13541)
[1] 5.203388

DODATEK: To znaczy „być addytywnym w skali logu”. „Dodatek w skali logarytmicznej szansy” to zwrot, którego moja nauczycielka Barbara McKnight użyła, podkreślając potrzebę stosowania wszystkich współczynników terminów stosowanych w regresji logistycznej podczas prognozowania. Najpierw dodajesz wszystkie współczynniki razy zmienne towarzyszące, a następnie potęgujesz. Sposobem na zwrócenie współczynników z obiektów regresji w R jest na ogół użycie coef()funkcji ekstraktora (wykonanej z inną losową realizacją poniżej):

 coef(test)
  #   (Intercept)    numberofdrugs treatmenttreated     improvedsome   improvedmarked 
  #   1.18561313       0.03272109       0.05544510      -0.09295549       0.06248684 

Tak więc obliczenie szacunku dla pacjenta z 4narkotykami "treated", z "some"poprawą, byłoby:

 exp( sum( coef(test)[ c(1,2,3,4) ]* c(1,4,1,1) ) ) 
 [1] 3.592999

A predyktorem liniowym dla tego przypadku powinna być suma:

 coef(test)[c(1,2,3,4)]*c(1,4,1,1) 
 #    (Intercept)    numberofdrugs treatmenttreated     improvedsome 
 #     1.18561313       0.13088438       0.05544510      -0.09295549

Zasady te powinny mieć zastosowanie do każdego pakietu statystyk, który zwraca użytkownikowi tabelę współczynników. Metoda i zasady są bardziej ogólne, niż mogłoby się wydawać na podstawie mojego użycia R.


Kopiuję wybrane komentarze wyjaśniające, ponieważ „znikają” w domyślnym ekranie:

P: Więc interpretujesz współczynniki jako stosunki! Dziękuję Ci! - MarkDollar

Odp .: Współczynniki są logarytmami naturalnymi stosunków. - DWin

P2: Czy w takim przypadku w regresji Poissona współczynniki potęgowane są również nazywane „ilorazami szans”? - Oort

A2: Nie. Gdyby to była regresja logistyczna, byliby, gdyby nie regresja Poissona, gdzie LHS jest liczbą zdarzeń, a domniemany mianownik to liczba ryzyka, wówczas współczynniki wykładnicze to „współczynniki częstości” lub „ryzyko względne”.

DWin
źródło
To pozwala głosować dwa razy? Jak miło. Myślałem, że zaoferowanie implementacji interpretacji kodu R może uratować ją przed siłami poprawności klasyfikacji. OP stanowi miły samodzielny przykład. Może powinienem był wykazać funkcję ekstraktora, więc myślę, że tak.
DWin
Tak, głosowałem za odpowiedzą na SO, potem się tu przeniosłem i głosowałem ponownie :)
Brandon Bertelsen
Dziękuję do tej pory! Znam związek między manekinami i kawalkami, ale interesuje mnie tylko interpretacja efektów głównych (zaznaczyłem je). Czy można wziąć częstość występowania z efektów głównych, na przykład dla leczonego manekina „exp (-0,012) = 0,99” i zinterpretować go jako szybkość, od której wartość zdrowia spada, przy zmianie kategorii referencyjnej na leczoną? To musi być prawda?
MarkDollar
Współczynniki wykładnicze są zawsze interpretowane jako stosunki. Stosunki „co” do „co” zależy od jednostek analizy. „Stawki” są różne, mają domyślną liczbę i wartość czasu. Jeśli więc chcesz zmienić terminologię, to być może „tak”. Najlepsze odpowiedzi pochodzą z pełnego opisu sytuacji analitycznej.
DW
Ach ok, to właśnie chciałem wiedzieć. Więc interpretujesz współczynniki jako stosunki! Dziękuję Ci!
MarkDollar