Ja przeprowadzenia regresji Poissona z celem końcowym porównywania (i przy różnicy) prognozowane średnie zliczenie pomiędzy dwoma poziomami czynnika w moim , trzymając inny model współzmiennych (które są binarne ) stała. Zastanawiałem się, czy ktokolwiek mógłby udzielić praktycznych porad, kiedy użyć linku dziennika zamiast linku tożsamości. Jakie są zalety tych dwóch różnych funkcji łącza w regresji Poissona, biorąc pod uwagę mój cel polegający na porównaniu różnic?
Mam również na uwadze ten sam cel regresji logistycznej / dwumianowej (użycie linku logit lub linku tożsamości) w celu porównania różnicy proporcji między dwoma poziomami czynników i potrzebuję podobnych porad. Przeczytałem niektóre posty tutaj, które dotyczą tego problemu, ale żaden nie wydaje się wyjaśniać, dlaczego lub kiedy można wybrać jeden link nad drugim i jakie mogą być zalety / wady. Z góry dziękuje za twoją pomoc!
AKTUALIZACJA:
Zdaję sobie również sprawę, że głównym celem korzystania z niektórych funkcji linków jest ograniczenie zakresu możliwych przewidywanych wartości, aby mieściły się w zakresie średniej odpowiedzi (np. W przypadku logistyki zakres jest ograniczony od 0 do 1, a dla logu link, prognozy są ograniczone do liczb dodatnich). Myślę więc, że pytam o to, że jeśli użyję linku tożsamości do powiedzenia regresji logistycznej / dwumianowej, a moje wyniki mieszczą się w zakresie (0,1), czy naprawdę istnieje potrzeba użycia funkcji linku logistycznego lub czy mogę po prostu uprościć myślenie i użyć linku tożsamości?
źródło
Odpowiedzi:
Wady łącza tożsamości w przypadku regresji Poissona to:
Ale ostatecznie jest to pytanie empiryczne. Dopasuj oba modele. Wykonuj dowolne kontrole. Jeśli link tożsamości ma niższy AIC i działa równie dobrze lub lepiej na wszystkich innych czekach, uruchom go z linkiem tożsamości.
W przypadku modelu logit vs liniowy model prawdopodobieństwa (tj. Tak zwany link tożsamości) sytuacja jest o wiele prostsza. Poza kilkoma bardzo egzotycznymi przypadkami w ekonometrii (które znajdziesz, jeśli przeprowadzasz wyszukiwanie), model logit jest lepszy: robi mniej założeń i jest tym, czego używa większość ludzi. Zastosowanie liniowego modelu prawdopodobieństwa na jego miejscu byłby bliski przewrotności.
Jeśli chodzi o interpretację modeli, jeśli używasz R, istnieją dwa świetne pakiety , które wykonają wszystkie ciężkie podnoszenie: efekty , które są bardzo łatwe w użyciu i zelig , który jest trudniejszy w użyciu, ale świetny, jeśli chcesz przewidywać .
źródło
W przypadku modeli Poissona powiedziałbym również, że aplikacja często dyktuje, czy twoje zmienne towarzyszące działałyby addytywnie (co oznaczałoby wówczas link tożsamości), czy multiplikacyjnie w skali liniowej (co oznaczałoby link logu). Ale modele Poissona z łączem tożsamości również zwykle mają sens i można je stabilnie dopasować tylko wtedy, gdy nałoży się ograniczenia nieujemności na dopasowane współczynniki - można tego dokonać za pomocą
nnpois
funkcji waddreg
pakiecie R lubnnlm
funkcji wNNLM
pakiet. Nie zgadzam się więc, że należy dopasować modele Poissona zarówno z identyfikatorem, jak i logiem i zobaczyć, który z nich ma najlepszy AIC i wywnioskować najlepszy model na podstawie czysto statystycznych podstaw - raczej w większości przypadków jest to podyktowane podstawowa struktura problemu, który próbuje się rozwiązać, lub dostępne dane.Na przykład w chromatografii (analiza GC / MS) często mierzy się nałożony sygnał kilku pików w przybliżeniu Gaussa i ten nałożony sygnał jest mierzony za pomocą multiplikatora elektronów, co oznacza, że mierzony sygnał to liczba jonów, a zatem rozkład Poissona. Ponieważ każdy z pików ma z definicji wysokość dodatnią i działa addytywnie, a hałasem jest Poisson, odpowiedni byłby nieujemny model Poissona z łączem tożsamości, a logarytmiczny model Poissona byłby po prostu błędny. W inżynierii strata Kullbacka-Leiblera jest często stosowana jako funkcja straty dla takich modeli, a minimalizacja tej straty jest równoważna z optymalizacją prawdopodobieństwa nieujemnego modelu Poissona powiązanego z tożsamością (istnieją również inne miary dywergencji / straty, takie jak dywergencja alfa lub beta które mają specjalny przypadek Poissona).
Poniżej znajduje się numeryczny przykład, w tym demonstracja, że zwykły nieograniczony link tożsamości Poisson GLM nie pasuje (z powodu braku ograniczeń nieujemności) oraz kilka szczegółów na temat dopasowania nieujemnych modeli tożsamości Poison za pomocą łącza
nnpois
, tutaj w kontekście dekonwolacji zmierzonej superpozycji pików chromatograficznych z szumem Poissona na nich za pomocą pasmowej macierzy kowariancyjnej, która zawiera przesunięte kopie zmierzonego kształtu pojedynczego piku. Nieegatywność jest tutaj ważna z kilku powodów: (1) jest to jedyny realistyczny model dostępnych danych (szczyty tutaj nie mogą mieć wysokości ujemnych), (2) jest to jedyny sposób na stabilne dopasowanie modelu Poissona z łączem tożsamości (ponieważ w przeciwnym razie prognozy dla niektórych wartości zmiennych towarzyszących mogą być ujemne, co nie miałoby sensu i dawałoby problemy numeryczne, gdy ktoś próbowałby ocenić prawdopodobieństwo), (3) nieujemność działa na rzecz uregulowania problemu regresji i znacznie pomaga uzyskać stabilne szacunki (np. zazwyczaj nie występują problemy z nadmiernym dopasowaniem, jak w przypadku zwykłej regresji nieograniczonej,ograniczenia nieujemności skutkują mniejszymi szacunkami, które często są bliższe podstawowej prawdzie; dla poniższego problemu dekonwolucji np. wydajność jest prawie tak dobra jak regularyzacja LASSO, ale bez konieczności dostrajania jakiegokolwiek parametru regularyzacji. ( Regresja karna pseudonorma L0 nadal działa nieco lepiej, ale przy wyższych kosztach obliczeniowych )źródło