Pakiet R / Stata dla zero obciętego ujemnego dwumianowego GEE?

13

to jest mój pierwszy post. Jestem naprawdę wdzięczny za tę społeczność.

Usiłuję analizować dane zliczania wzdłużnego, które są obcinane przez zero (prawdopodobieństwo, że zmienna odpowiedzi = 0 wynosi 0), a średnia! = Wariancja, więc wybrano ujemny rozkład dwumianowy nad poissonem.

Funkcje / polecenia, które wykluczyłem:

R

  • Funkcja gee () w R nie uwzględnia skracania zera ani ujemnego rozkładu dwumianowego (nawet przy załadowanym pakiecie MASS)
  • glm.nb () w R nie pozwala na różne struktury korelacji
  • vglm () z pakietu VGAM może korzystać z rodziny posnegbinomial, ale ma ten sam problem, co polecenie ztnb Staty (patrz poniżej), ponieważ nie mogę ponownie modelować przy użyciu niezależnej struktury korelacji.

Stata

  • Gdyby dane nie były podłużne, mógłbym po prostu użyć pakietów Stata ztnb do uruchomienia mojej analizy, ALE to polecenie zakłada, że ​​moje obserwacje są niezależne.

Wykluczyłem również GLMM z różnych przyczyn metodologicznych / filozoficznych.

Na razie zdecydowałem się na komendę Stata xtgee (tak, wiem, że xtnbreg robi to samo), która uwzględnia zarówno niezależne struktury korelacji, jak i ujemną dwumianową rodzinę, ale nie obcinanie zera. Dodatkową korzyścią wynikającą z używania xtgee jest to, że mogę również obliczyć wartości qic (za pomocą polecenia qic) w celu ustalenia najlepiej dopasowanych struktur korelacji dla moich zmiennych odpowiedzi.

Jeśli istnieje pakiet / polecenie w R lub Stata, które mogą wziąć pod uwagę 1) rodzinę dwumianową, 2) GEE i 3) obcinanie zera, chciałbym wiedzieć.

Byłbym bardzo wdzięczny za wszelkie twoje pomysły. Dziękuję Ci.

-Casey

Iris Tsui
źródło

Odpowiedzi:

12

W przypadku R przychodzą mi na myśl dwie opcje, z których obie są mi w najlepszym razie niejasne.

Pierwszym z nich jest psclpakiet, który zmieści zerowe skrócone zawyżone i przeszkoda modele w bardzo ładny, elastyczny sposób. psclPakiet sugeruje stosowanie sandwichpakietu, który stanowi model „odpornego standardowe estymatorów błędów dla przekroju poprzecznego, czas cyklu i dane wzdłużnym”. Aby dopasować model zliczania, a następnie użyć sandwichpakietu, aby oszacować odpowiednią macierz kowariancji dla reszt, biorąc pod uwagę podłużny charakter danych.

Drugą opcją może być wygląd geepackpakietu, który wygląda tak, jakby mógł robić, co chcesz, ale tylko w przypadku ujemnego modelu dwumianowego ze znaną theta, ponieważ będzie pasował do dowolnego typu GLM, który glm()może wykonać funkcja R (więc użyj funkcji rodziny z MASS) .

Trzecia opcja podniosła głowę: gamlssi to pakiet dodatków gamlss.tr. Ta ostatnia zawiera funkcję, gen.trun()która może gamlss()w elastyczny sposób zamienić dowolne obsługiwane przez nią rozkłady w skróconą dystrybucję - możesz na przykład określić lewą skróconą przy zerowym rozkładzie dwumianowym. gamlss()samo obejmuje obsługę efektów losowych, które powinny zadbać o podłużny charakter danych. Nie jest jednak od razu jasne, czy musisz użyć co najmniej jednej gładkiej funkcji współzmiennej w modelu, czy możesz po prostu modelować wszystko jako funkcje liniowe, jak w GLM.

Przywróć Monikę - G. Simpson
źródło
Uważam, że pakiet pscl pasuje tylko do modeli o zerowym napełnieniu i przeszkodach. Modele przeszkód zawierają zarówno element skróconego liczenia w lewo, jak i komponent przeszkody w cenzurze prawej. Nie wiem jak, a nawet czy jestem w stanie uruchomić model przeszkody bez komponentu przeszkody, ale zajrzę do pakietu Sandwick. Jeśli chodzi o pakiet geepack, wydaje się, że ma ten sam problem co pakiet gee; kiedy podam rodzinę „negative.binomial” (z MASS), bez określenia theta, poprosi o theta. Jednak gdy podam wartość theta, wypluje błąd, mówiąc, że jest to nierozpoznana rodzina.
Iris Tsui
@Casey - przepraszam, że źle odczytałem twoje wymagania dotyczące zerowania skrótu. Szkoda, że ​​geepack nie działa z tą funkcją rodziny. Jeśli pomyślę o czymś innym, zaktualizuję tutaj.
Przywróć Monikę - G. Simpson
@Casey Dodałem notatkę o gamlsspakiecie, która może pasować również do rachunku w R.
Przywróć Monikę - G. Simpson
Zaakceptowanie odpowiedzi z powodu wielu sugestii dotyczących zasobów i funkcji, które poprawiły moje zrozumienie. Wygląda na to, że „gamlss” byłby możliwym sposobem rozwiązania mojego problemu, ale ponieważ właściwie nie jestem statystyką, nie mam obecnie wiedzy matematycznej ani czasu, aby otworzyć puszkę robaków w tej chwili (ale może w końcu to zrobię). Jak wspomniano w innym komentarzu, przynajmniej dla moich danych wydaje się, że ignorowanie obcięcia zerowego nie zmieni moich oszacowań i błędów standardowych. Dla moich zamierzonych odbiorców uważam, że dwumianowy GEE dobrze sobie poradzi. Dzięki!
Iris Tsui
9

Hmm, dobre pierwsze pytanie! Nie znam pakietu, który spełnia Twoje dokładne wymagania. Myślę, że xtgee Staty jest dobrym wyborem, jeśli określisz również vce(robust)opcję podania standardowych błędów Huber-White, lub vce(bootstrap)jeśli jest to praktyczne. Każda z tych opcji zapewni konsekwentne szacowanie standardowych błędów, pomimo błędnej specyfikacji modelu, ignorując zerowe obcięcie.

Pozostawia to pytanie, jaki wpływ zignorowanie skrótu zerowego będzie miało na interesujące cię oszacowanie punktu. Warto szybko poszukać, czy istnieje ogólna literatura na ten temat, tj. Niekoniecznie w kontekście GEE - pomyślałbym, że można całkiem bezpiecznie założyć, że wszelkie takie wyniki będą miały znaczenie również w przypadku GEE. Jeśli nic nie możesz znaleźć, zawsze możesz symulować dane z zerowym obcięciem i znanymi oszacowaniami efektu, a także oszacować odchylenie poprzez symulację.

jeden przystanek
źródło
1
Upewniłem się, że oszacowałem solidne błędy standardowe. Ponadto w książce „Modele i rozszerzenia efektów mieszanych w ekologii z R” autorstwa Zuura i wsp., 2009, na stronie 261, wspominają: „jeśli średnia zmiennej odpowiedzi jest stosunkowo duża, ignorując problem obcięcia, a następnie zastosować jest mało prawdopodobne, aby uogólniony model liniowy (GLM) Poissona lub ujemnego dwumianowego (NB) był przyczyną problemu ”. Na szczęście średnie moich zmiennych odpowiedzi są duże, więc czuję się nieco wygodniej depriorytetyzując zerowe obcięcie w porównaniu z GEE i aspektami dwumianowymi moich regresji.
Iris Tsui
Wygląda na to, że już wiesz więcej na ten temat niż ja! Lub ktokolwiek inny na tej stronie, sądząc po braku innych odpowiedzi.
onestop
To jest trochę niewiarygodne; kto wiedział, że nadmiernie rozproszone dane dotyczące liczby podłużnej będą tak trudne do przeanalizowania (bez zrobienia GLMM, na co nawet nie spojrzałem)? Gdyby tylko moje dane były zerowane, to byłaby inna historia.
Iris Tsui
5

W mojej rozprawie miałem ten sam problem. W Stacie właśnie zbudowałem własny program .ado z dwoma wywołaniami do xtgee.

W tym celu znalazłem slajdy / programy „Modelowanie kosztów opieki zdrowotnej i rachunków” autorstwa Partha Deb, Willard Manning i Edwarda Nortona. Nie mówią o danych podłużnych, ale jest to przydatny punkt wyjścia.

Keith
źródło
1

Szukałem odpowiedzi na interpretację glmmADMB i widziałem twój post. Wiem, że to było dawno temu, ale mogę znać odpowiedź.

Zajrzyj do pakietu glmmADMB, gdy używasz modeli przeszkodowych. Musisz podzielić na dwie analizy swoich danych: jedna z nich traktuje tylko dane zerowe. Możesz dodać mieszane efekty i wybrać rozkład. Warunkiem jest to, że dane muszą być zerowane i nie wiem, czy to spełniło twoje wymagania! W każdym razie mam nadzieję, że dowiedziałeś się dawno temu!

Marta
źródło