GLM z ciągłymi danymi zgromadzonymi na zerze

11

Próbuję uruchomić model, aby oszacować, w jaki sposób katastrofalne choroby, takie jak gruźlica, AIDS itp. Wpływają na wydatki na hospitalizację. Mam „na koszt hospitalizacji” jako zmienną zależną i różne indywidualne markery jako zmienne niezależne, z których prawie wszystkie są obojętne, takie jak płeć, głowa gospodarstwa domowego, stan ubóstwa i oczywiście manekin na wypadek choroby (plus wiek i wiek do kwadratu) oraz kilka warunków interakcji.

Jak można się spodziewać, istnieje znaczna ilość - i mam na myśli dużo - danych zgromadzonych na poziomie zerowym (tj. Brak wydatków na hospitalizację w 12-miesięcznym okresie odniesienia). Jaki byłby najlepszy sposób radzenia sobie z takimi danymi?

Na razie postanowiłem przeliczyć koszt ln(1+cost), aby uwzględnić wszystkie obserwacje, a następnie uruchomić model liniowy. Czy jestem na dobrej drodze?

generalized-linear-model zero-inflation ordered-logit regression-strategies użytkownik42372
źródło

1

Czy twoja odpowiedź jest naprawdę liczona? Termin, którego szukasz, to inflacja zerowa .

gung - Przywróć Monikę

2

Można także mieć ciągłe rozkłady o zerowym napełnieniu; istnieją na przykład modele gamma o zerowym napełnieniu.

Glen_b

1

@Glen_b, właśnie to miałem na myśli. Jednak nigdy tego nie zrobiłem. Sugestia Franka Harrella odnośnie OLR jest również sprytnym sposobem na obejście tego problemu.

gung - Przywróć Monikę

8

Jak omówiono w innym miejscu strony, regresja porządkowa (np. Proporcjonalne szanse, proporcjonalne zagrożenia, probit) jest elastycznym i solidnym podejściem. Dopuszczalne są nieciągłości w rozkładzie , w tym ekstremalne zlepianie. Nic nie zakłada się o dystrybucję dla pojedynczej . Modele o zerowym napełnieniu przyjmują znacznie więcej założeń niż modele półparametryczne. Aby zapoznać się z pełnym studium przypadku, zobacz moje materiały informacyjne, rozdział 15 na stronie http://biostat.mc.vanderbilt.edu/CourseBios330 . $Y$ $Y$ $X$

Jedną wielką zaletą modeli porządkowych dla ciągłego jest to, że nie trzeba wiedzieć, jak przekształcić przed analizą. $Y$ $Y$

Frank Harrell
źródło

8

Zbijanie przy 0 nazywa się „zerową inflacją”. Zdecydowanie najczęstszymi przypadkami są modele zliczania, prowadzące do zerowanej inflacji Poissona i zerowanej inflacji ujemnej regresji dwumianowej. Istnieją jednak sposoby modelowania zerowej inflacji za pomocą rzeczywistych wartości dodatnich (np. Model gamma z zerowym napełnieniem).

Zobacz Min i Agresti, 2002, Modelowanie danych nieujemnych z klastrowaniem przy zerze dla przeglądu tych metod.

Peter Flom - Przywróć Monikę
źródło

1

Sugestia zastosowania zerowanego modelu Poissona jest interesującym początkiem. Ma to pewne zalety wspólnego modelowania prawdopodobieństwa poniesienia jakichkolwiek kosztów związanych z chorobą, a także procesu, jakim okazują się te koszty w przypadku jakiejkolwiek choroby. Ma to ograniczenie polegające na tym, że nakłada pewną ścisłą strukturę na kształt wyniku, pod warunkiem naliczenia jakichkolwiek kosztów (np. Konkretna relacja średnia-wariancja i pozytywny wynik w postaci liczby całkowitej ... ten drugi może być złagodzony dla niektórych cele modelowania).

Jeśli zgadzasz się na samodzielne leczenie wstępu i kosztów związanych z chorobą pod warunkiem niezależnego procesu przyjmowania , możesz to przedłużyć, modelując najpierw proces binarny tak, czy wygenerowałeś jakieś koszty związane z chorobą? Jest to prosty model regresji logistycznej i umożliwia ocenę czynników ryzyka i rozpowszechnienia. Biorąc to pod uwagę, możesz ograniczyć analizę do podzbioru osób, które naliczyły jakiekolwiek koszty, i modelować proces faktycznego kosztu za pomocą wielu technik modelowania. Poisson jest dobry, quasi-poisson byłby lepszy (uwzględnianie małych, niepomiarowych źródeł kowariancji w danych i odstępstw od założeń modelowych). Ale niebo jest granicą w modelowaniu procesu ciągłego kosztu.

Jeśli absolutnie potrzebujesz modelować korelację parametrów w procesie, możesz użyć oszacowań SE bootstrap. Nie widzę powodu, dla którego byłoby to nieważne, ale byłbym ciekawy usłyszeć opinie innych, jeśli mogłoby to być złe. Zasadniczo uważam, że są to dwa osobne pytania i należy je traktować jako takie, aby mieć uzasadnione wnioski.

AdamO
źródło

GLM z ciągłymi danymi zgromadzonymi na zerze

Odpowiedzi: