Regresja Poissona w celu oszacowania względnego ryzyka wyników binarnych

42

Krótkie podsumowanie

Dlaczego regresja logistyczna (z ilorazami szans) jest częściej stosowana w badaniach kohortowych z wynikami binarnymi, w przeciwieństwie do regresji Poissona (z względnym ryzykiem)?

tło

Z mojego doświadczenia wynika, że ​​statystyki licencjackie i magisterskie oraz kursy epidemiologiczne na ogół uczą, że do modelowania danych z wynikami binarnymi należy stosować regresję logistyczną, a oszacowania ryzyka należy podawać jako iloraz szans.

Jednak regresji Poissona (i pokrewnych: quasi-Poissona, dwumianu ujemnego itp.) Można również użyć do modelowania danych z wynikami binarnymi, a odpowiednimi metodami (np. Solidny estymator wariancji kanapkowej) zapewnia prawidłowe szacunki ryzyka i poziomy ufności. Na przykład,

Z regresji Poissona można zgłaszać ryzyko względne, które zdaniem niektórych jest łatwiejsze do interpretacji w porównaniu ze współczynnikami prawdopodobieństwa, szczególnie w przypadku częstych wyników, a zwłaszcza przez osoby bez silnego doświadczenia w statystyce. Zobacz Zhang J. i Yu KF, Jakie jest względne ryzyko? Metoda korekcji ilorazu szans w badaniach kohortowych wspólnych wyników , JAMA. 18 listopada 1998; 280 (19): 1690-1.

Z lektury literatury medycznej wynika, że ​​wśród badań kohortowych z wynikami binarnymi wydaje się, że o wiele bardziej powszechne jest zgłaszanie ilorazów szans z regresji logistycznych niż względnego ryzyka z regresji Poissona.

pytania

W przypadku badań kohortowych z wynikami binarnymi:

  1. Czy istnieje uzasadniony powód, aby zgłaszać iloraz szans z regresji logistycznych zamiast ryzyka względnego z regresji Poissona?
  2. Jeśli nie, to czy rzadką regresję Poissona przy względnym ryzyku w literaturze medycznej można przypisać głównie opóźnieniu między teorią metodologiczną a praktyką wśród naukowców, klinicystów, statystów i epidemiologów?
  3. Czy pośrednie statystyki i kursy epidemiologiczne powinny zawierać więcej dyskusji na temat regresji Poissona dla wyników binarnych?
  4. Czy powinienem zachęcać studentów i współpracowników do rozważenia regresji Poissona zamiast regresji logistycznej, gdy jest to właściwe?
jthetzel
źródło
Jeśli chcesz względnego ryzyka, dlaczego nie miałbyś użyć regresji dwumianowej z łączem log (a nie logistycznym)? Relacja średniej wariancji w rodzinie Poissona nie ma większego sensu, jeśli uwarunkowana jest liczba możliwych zdarzeń na obserwację.
Andrew M,
@AndrewM Jak zastosować regresję dwumianową z linkiem do dziennika? Dodatnie wartości regresora oznaczałyby wartości prawdopodobieństwa większe niż 1.
Rufo
[0,1]
@AndrewM Tak, mam na myśli predyktor liniowy, dziękuję :). Ale nawet jeśli uda ci się wdrożyć model, nie jestem pewien, czy jest odpowiedni. Jak wskazuję w komentarzu w pierwszej odpowiedzi, jeśli zamienisz 0 na 1s i odwrotnie dla zmiennej odpowiedzi, ponieważ łącze logarytmiczne nie jest symetryczne wokół 0,5, szacunki względnego ryzyka są różne ( exp(beta_M1) =/= 1/exp(beta_M2)). To mnie trochę niepokoi.
Rufo
1
P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)

Odpowiedzi:

28

Odpowiedź na wszystkie cztery pytania, poprzedzona notatką:

W rzeczywistości współczesne badania epidemiologiczne nie są tak częste, aby zgłaszać iloraz szans z regresji logistycznej dla badania kohortowego. Pozostaje techniki regresji wyboru badań kliniczno-kontrolnych, ale bardziej wyrafinowane techniki są teraz de facto standardem dla analizy w głównych czasopismach epidemiologicznych jak Epidemiology , AJE lub IJE. Pojawi się większa tendencja do pojawiania się w czasopismach klinicznych informujących o wynikach badań obserwacyjnych. Pojawią się również problemy, ponieważ regresję Poissona można zastosować w dwóch kontekstach: o czym mówisz, w którym zastępuje model regresji dwumianowej oraz w kontekście czasu do zdarzenia, który jest niezwykle powszechny w grupie studia. Więcej szczegółów w poszczególnych odpowiedziach na pytania:

  1. W przypadku badania kohortowego nie do końca nie. Istnieją pewne bardzo specyficzne przypadki, w których można powiedzieć, że użyto częściowego modelu logistycznego, ale są to wartości odstające. Cały sens badania kohortowego polega na tym, że możesz bezpośrednio zmierzyć względne ryzyko lub wiele powiązanych miar i nie musisz polegać na ilorazie szans. Zrobię jednak dwie notatki: regresja Poissona często szacuje tempo, a nie ryzyko, a zatem oszacowanie efektu na podstawie tego często będzie odnotowane jako współczynnik szybkości (głównie, moim zdaniem, więc nadal można go skrócić RR) lub współczynnik gęstości padania (IRR lub IDR). Upewnij się więc, że faktycznie szukasz właściwych terminów: istnieje wiele badań kohortowych z wykorzystaniem metod analizy przeżycia. Dla tych badań regresja Poissona przyjmuje pewne problematyczne założenia, w szczególności, że zagrożenie jest stałe. W związku z tym znacznie częściej analizuje się badanie kohortowe przy użyciu proporcjonalnych modeli zagrożeń Coxa, a nie modeli Poissona, i podaje wynikający z tego współczynnik ryzyka (HR). Gdybym naciskał, aby nazwać „domyślną” metodę analizy kohorty, powiedziałbym, że epidemiologia jest faktycznie zdominowana przez model Coxa. Ma to swoje własne problemy i niektórzy bardzo dobrzy epidemiolodzy chcieliby to zmienić,

  2. Są dwie rzeczy, które można przypisać do sporadyczność - rzadko zjawisko niekoniecznie mam myśleć istnieje w stopniu sugerować. Jednym z nich jest to, że tak - „epidemiologia” jako dziedzina nie jest dokładnie zamknięta i otrzymujesz ogromną liczbę artykułów od klinicystów, naukowców społecznych itp., A także epidemiologów o różnym pochodzeniu statystycznym. Model logistyczny jest powszechnie nauczany iz mojego doświadczenia wynika, że ​​wielu badaczy zwróci się do znanego narzędzia zamiast lepszego.

    Drugi to właściwie pytanie, co rozumiesz przez badanie „kohortowe”. Coś takiego jak model Coxa lub model Poissona wymaga rzeczywistego oszacowania czasu osobowego. Możliwe jest uzyskanie badania kohortowego, które śledzi nieco zamkniętą populację przez określony czas - szczególnie we wczesnych przykładach „Wprowadzenie do Epi”, w których metody przetrwania, takie jak modele Poissona lub Coxa, nie są tak przydatne. Model logistyczny możebyć stosowane do oszacowania ilorazu szans, który przy wystarczająco niskiej częstości występowania choroby zbliża się do względnego ryzyka. Inne techniki regresji, które bezpośrednio ją szacują, takie jak regresja dwumianowa, mają problemy z konwergencją, które mogą łatwo wykoleić nowego ucznia. Pamiętaj, że cytowane przez ciebie dokumenty Zou wykorzystują technikę regresji Poissona, aby obejść problemy dotyczące zbieżności regresji dwumianowej. Ale dwuwymiarowe badania kohortowe są w rzeczywistości niewielkim wycinkiem „badania kohortowego”.

  3. Tak. Szczerze mówiąc, metody analizy przeżycia powinny pojawić się wcześniej niż często. Moja teoria zwierząt domowych jest taka, że ​​nie jest tak dlatego, że metody takie jak regresja logistyczna są łatwiejsze do kodowania . Techniki, które są łatwiejsze do kodowania, ale mają znacznie większe zastrzeżenia co do ważności ich oszacowań efektów, są nauczane jako „podstawowy” standard, co stanowi problem.

  4. Powinieneś zachęcać uczniów i współpracowników do korzystania z odpowiedniego narzędzia. Ogólnie rzecz biorąc, wydaje mi się, że lepiej byłoby zaproponować rozważenie modelu Coxa w stosunku do regresji Poissona, ponieważ większość recenzentów (i powinna) szybko poruszyłaby obawy dotyczące założenia stałego zagrożenia. Ale tak, im szybciej uda Ci się ich oderwać od „Jak przekształcić moje pytanie w model regresji logistycznej?” tym lepiej wszyscy będziemy. Ale tak, jeśli patrzysz na badanie bez czasu, uczniowie powinni zapoznać się zarówno z regresją dwumianową, jak i metodami alternatywnymi, takimi jak regresja Poissona, które można zastosować w przypadku problemów z konwergencją.

Fomite
źródło
Kiedy mówisz, że inne techniki regresji, które bezpośrednio je szacują [ryzyko względne, jak sądzę], podobnie jak regresja dwumianowa, mają problemy z konwergencją [...] , w jaki sposób zastosowałbyś regresję dwumianową, aby zapewnić ci względne ryzyko? @AndrewM sugeruje łącze do dziennika, ale nie widzę, jak można uniknąć problemu z oszacowaniem prawdopodobieństwa sukcesu wyższego niż 1.
Rufo
@Rufo Model dwumianowy z łączem logarytmicznym po uruchomieniu w kohorcie oszacuje względne ryzyko. To, że modele te czasami szacują prawdopodobieństwo większe niż 1, jest rzeczywiście jednym z powodów, dla których modele dwumianowe są trudniejsze do wdrożenia niż jest to idealne. Ale udało mi się je wykorzystać - pomocne jest to, że twoje dane często mają prawdopodobieństwo znacznie poniżej 1, więc model może nigdy nie mieć problemu, o który się martwisz.
Fomite
p
9

Ja również spekuluję na temat rozpowszechnienia modeli logistycznych w literaturze, kiedy bardziej odpowiedni byłby model ryzyka względnego. Jako statystycy jesteśmy zbyt dobrze zaznajomieni z przestrzeganiem konwencji lub trzymaniem się analiz „rozwijanego menu”. Stwarzają one znacznie więcej problemów niż rozwiązują. Regresję logistyczną uczy się jako „standardowego narzędzia półki” do analizy wyników binarnych, w których dana osoba ma wynik typu tak / nie, taki jak śmierć lub niepełnosprawność.

Regresję Poissona często uczy się jako metody analizy zliczeń . Podkreśla się nieco, że taki model prawdopodobieństwa działa wyjątkowo dobrze w modelowaniu wyników 0/1, szczególnie gdy są rzadkie. Jednak model logistyczny jest również dobrze stosowany z rzadkimi wynikami: iloraz szans jest w przybliżeniu współczynnikiem ryzyka, nawet przy próbkowaniu zależnym od wyników, jak w przypadku badań kontrolnych. Tego samego nie można powiedzieć o ryzyku względnym ani modelach Poissona.

Model Poissona jest także przydatny, gdy poszczególne osoby mogą mieć „wynik” więcej niż jeden raz, a Ty możesz być zainteresowany skumulowaną częstością, taką jak wybuchy opryszczki, hospitalizacje lub nowotwory piersi. Z tego powodu współczynniki wykładnicze można interpretować jako współczynniki względne . Aby przedstawić różnicę między wskaźnikami a ryzykiem: Jeśli występuje 100 przypadków na 1000 osobolat, ale wszystkie 100 przypadków zdarzyło się u jednej osoby, zapadalność (wskaźnik) wynosi nadal 1 przypadek na 10 osobolat. W placówkach opieki zdrowotnej nadal musisz leczyć 100 przypadków, a zaszczepienie 80% ludzi ma 80% redukcję zachorowań (a priori). Jednak ryzyko co najmniej jednego wyniku wynosi 1/1000. Charakter wyniku i pytanie łącznie decydują o tym, który model jest odpowiedni.

var(y)=E(y)(1E(y))

log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

Nawiasem mówiąc, artykuł Zhanga zawiera tendencyjne oszacowanie wnioskowania na podstawie oszacowania ryzyka względnego, które nie uwzględnia zmienności w okresie przechwytywania. Możesz poprawić estymator poprzez ładowanie.

Aby odpowiedzieć na konkretne pytania:

  1. Jeśli wynik jest rzadki, są mniej więcej takie same. Jeśli wynik jest wspólny, wariancja estymatora stopy względnej z Poissona może być zawyżona, a my możemy preferować iloraz szans jako tendencyjne, ale skuteczne oszacowanie związku między wynikiem binarnym a kilkoma ekspozycjami. Uważam również, że badania kontroli przypadków uzasadniają zastosowanie ilorazu szans jako miary, która nie zmienia się w zależności od próbkowania zależnego od wyniku. Scott i Wild 97 omawiają metody wokół tego. Oczywiście inne czasopisma mogą nie mieć dedykowanych recenzentów statystycznych.

2.3 Myślę, że obwiniasz i zakładasz zbyt wiele o to, co dzieje się w przeglądzie medycznym i naukowcach.

  1. Zawsze należy zachęcać uczniów, aby w miarę możliwości korzystali z odpowiednich modeli.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat

AdamO
źródło
2
„Rozumiem, że jeśli zainteresowania naukowe polegają na oszacowaniu względnych stawek, istnieje model hybrydowy: regresja ryzyka względnego, która jest GLM z wykorzystaniem struktury wariancji logistycznej i struktury średniej poissona”: Znana również jako regresja dwumianowa z łączem logarytmicznym.
Andrew M,
2
@AndrewM Rzeczywiście. Myślę, że to preferowany język. Dzięki za zwrócenie na to uwagi. Zredagowałem pytanie, aby uwzględnić odniesienie do dokumentu roboczego Thomasa Lumleya, który podkreśla, że ​​model Poissona jest „modelem roboczym”, ponieważ jest to niepoprawna założona zależność średnia-wariancja.
AdamO,
Co rozumiesz przez „jeśli wynik jest rzadki , są mniej więcej takie same”? Jaki jest maksymalny odsetek „rzadkich” wyników w celu użycia OR zamiast RR w celu oszacowania rozpowszechnienia?
vasili111
1
@ vasili111 jest to gorąco dyskutowany temat bez jasnej odpowiedzi. W dzisiejszych czasach można spotkać wiele krytyków ludzi przyjmujących „rzadkie” założenia, gdy występowanie nie było wcale takie rzadkie, na przykład ponad 1/30. A w modelach wielowymiarowych wszystko idzie!
AdamO,