Czytam bardzo interesujący artykuł Sellersa i Shmueli na temat modeli regresji dla danych zliczania. Na początku (s. 944) przytaczają McCullaugh i Nelder (1989), twierdząc, że regresja dwumianowa jest niepopularna i ma problematyczne powiązanie kanoniczne. Znalazłem wspomniany fragment i mówi (s. 374 M i N)
„Wydaje się, że w aplikacjach mało użyto ujemnego rozkładu dwumianowego; w szczególności użycie łącza kanonicznego jest problematyczne, ponieważ czyni predyktor liniowy funkcją parametru funkcji wariancji”.
Na poprzedniej stronie podają tę funkcję linku jako
i funkcja wariancji
Rozkład podano jako
Odkryłem, że regresja NB jest dość szeroko stosowana (i zalecana w kilku książkach). Czy wszystkie te zastosowania i zalecenia są błędne?
Jakie są konsekwencje tego problematycznego łącza?
źródło
Odpowiedzi:
Kwestionuję te twierdzenia z kilku punktów widzenia:
i) Chociaż łącze kanoniczne może być „problematyczne”, nie jest od razu oczywiste, że ktoś będzie zainteresowany tym łączem - podczas gdy na przykład łącze logarytmiczne w Poissonie jest często zarówno wygodne, jak i naturalne, a zatem ludzie są często zainteresowany tym. Mimo to w przypadku Poissona ludzie patrzą na inne funkcje łącza.
Nie musimy więc ograniczać naszych rozważań do powiązania kanonicznego.
„Problematyczny związek” sam w sobie nie jest szczególnie wymownym argumentem przeciwko negatywnej regresji dwumianowej.
Na przykład link do dziennika wydaje się być całkiem rozsądnym wyborem w niektórych negatywnych aplikacjach dwumianowych, na przykład w przypadkach, w których dane mogą być warunkowo Poissonem, ale występuje niejednorodność w szybkości Poissona - link do logu może być prawie tak samo interpretowalny jak w przypadku Poissona.
Dla porównania dość często używam GLM Gamma, ale nie przypominam sobie (poza przykładami z podręcznika), że kiedykolwiek użyłem jego kanonicznego linku - używam log-linku prawie zawsze, ponieważ jest to bardziej naturalny link do tego rodzaju problemów Mam tendencję do pracy.
ii) „Wygląda na to, że niewiele zostało zrobione ... we wnioskach” mogło być w gruncie rzeczy prawdą w 1989 roku, ale nie sądzę, aby miało to miejsce teraz. [Nawet jeśli tak się stało, to nie jest argument, że jest to zły model, tylko to, że nie był szeroko stosowany - co może się zdarzyć z wielu powodów.]
Negatywna regresja dwumianowa stała się bardziej rozpowszechniona, ponieważ jest bardziej dostępna, i widzę, że jest obecnie stosowana w aplikacjach znacznie szerzej. Na przykład w R korzystam z funkcji,
MASS
które go obsługują (a odpowiednia książka, Venables and Ripley's, Modern Applied Statistics with S , wykorzystuje ujemną regresję dwumianową w niektórych interesujących aplikacjach) - i użyłem pewnej funkcjonalności w kilku innych pakietach, nawet zanim użyłem go w R.Użyłbym bardziej negatywnej regresji dwumianowej, nawet wcześniej, gdyby był mi łatwo dostępny; Spodziewam się, że to samo dotyczy wielu osób - więc argument, że był on mało używany, wydaje się być raczej szansą.
Chociaż można uniknąć ujemnej regresji dwumianowej (na przykład poprzez stosowanie nadmiernie rozproszonych modeli Poissona) lub wielu sytuacji, w których tak naprawdę nie ma to większego znaczenia, to, co robisz , jest wiele powodów, dla których nie jest to w pełni satysfakcjonujące.
Na przykład, gdy bardziej interesuję się przedziałami predykcyjnymi niż szacunkami współczynników, fakt, że współczynniki się nie zmieniają, może nie być wystarczającym powodem do uniknięcia ujemnego dwumianu.
Oczywiście istnieją jeszcze inne możliwości modelowania dyspersji (takie jak Conway-Maxwell-Poisson, który jest przedmiotem wspomnianego papieru); choć z pewnością są to opcje, czasami zdarzają się sytuacje, w których jestem całkiem szczęśliwy, że dwumian ujemny jest dość dobrym „dopasowaniem” jako modelu mojego problemu.
Naprawdę tak nie uważam! Gdyby tak było, do tej pory powinno to być dość jasne. Rzeczywiście, jeśli McCullagh i Nelder nadal czują to samo, nie mieli oni okazji ani forów, w których mogliby wyjaśnić pozostałe kwestie. Nelder zmarł (2010), ale McCullagh najwyraźniej wciąż jest w pobliżu .
Jeśli ten krótki fragment w McCullagh i Nelder to wszystko, co mają, powiedziałbym, że to dość słaby argument.
Myślę, że problem dotyczy głównie funkcji wariancji, a funkcja link jest raczej powiązana niż niezwiązana (jak ma to miejsce w przypadku prawie wszystkich innych głównych rodzin GLM w powszechnym użyciu), co czyni interpretację na skali predyktora liniowego mniej proste (to nie znaczy, że to jedyny problem; myślę, że jest to główny problem dla praktyka). To nie jest wielka okazja.
Nic nie ma na celu zabrania niczego modelom Conwaya-Maxwella-Poissona (temat Sellers and Shmueli), które również stają się coraz szerzej stosowane - z pewnością nie chcę brać udziału w negatywnym dwumianowym kontra COM -Poisson strzelanka.
Po prostu nie uważam tego za jedno lub drugie, podobnie jak (teraz mówiąc szerzej) zajmuję stanowisko czysto bayesowskie, ani nie dość częste wobec problemów statystycznych. Wykorzystam wszystko, co mnie uderzy, jako najlepszy wybór w konkretnych okolicznościach, w których się znajduję, a każdy wybór ma zalety i wady.
źródło