Jakie są założenia ujemnej regresji dwumianowej?

30

Pracuję z dużym zestawem danych (poufnym, więc nie mogę udostępniać zbyt wiele) i doszedłem do wniosku, że konieczna będzie regresja dwumianowa. Nigdy wcześniej nie dokonywałem regresji glm i nie mogę znaleźć żadnych jasnych informacji na temat założeń. Czy są takie same dla MLR?

Czy mogę przekształcić zmienne w ten sam sposób (już odkryłem, że przekształcanie zmiennej zależnej jest złym wywołaniem, ponieważ musi być liczbą naturalną)? Ustaliłem już, że ujemny rozkład dwumianowy pomógłby w nadmiernej dyspersji moich danych (wariancja wynosi około 2000, średnia wynosi 48).

Dzięki za pomoc!!

Carly
źródło

Odpowiedzi:

42

Pracuję z dużym zestawem danych (poufnym, więc nie mogę udostępniać zbyt wiele),

Możliwe może być utworzenie małego zestawu danych, który ma niektóre ogólne cechy rzeczywistych danych bez nazw zmiennych ani żadnych rzeczywistych wartości.

i doszedł do wniosku, że konieczna będzie ujemna regresja dwumianowa. Nigdy wcześniej nie dokonywałem regresji glm i nie mogę znaleźć żadnych jasnych informacji na temat założeń. Czy są takie same dla MLR?

Najwyraźniej nie! Wiesz już, że zakładasz, że odpowiedź jest dwumianowa warunkowo ujemna, a nie warunkowo normalna. ( Niektóre założenia są wspólne. Na przykład niezależność.)

Pozwól, że najpierw zacznę mówić o GLM.

GLM obejmują regresję wielokrotną, ale generalizują na kilka sposobów:

1) rozkład warunkowy odpowiedzi (zmienna zależna) pochodzi z rodziny wykładniczej , która obejmuje rozkład Poissona, dwumianowy, gamma, normalny i wiele innych rozkładów.

log(p1-p)

YX1X2)YX

mi(Yja)=μja

logμja=ηjaηlogsol

ηja=β0+β1x1ja+β2)x2)ja

3) wariancja odpowiedzi nie jest stała, ale działa poprzez funkcję wariancji (funkcja średniej, być może razy parametru skalowania). Na przykład wariancja Poissona jest równa średniej, podczas gdy dla gamma jest proporcjonalna do kwadratu średniej. (Quasi-rozkłady pozwalają na pewien stopień oddzielenia funkcji wariancji od założonego rozkładu)

-

Jakie więc założenia są wspólne z tym, co pamiętasz z MLR?

  • Niezależność wciąż tam jest.

  • Homoskedastyczność nie jest już zakładana; wariancja jest wyraźnie funkcją średniej, a zatem ogólnie zmienia się w zależności od predyktorów (więc podczas gdy model jest zasadniczo heteroskedastyczny, heteroskedastyczność przyjmuje określoną postać).

  • Xβ

  • Rozkład odpowiedzi jest znacznie bardziej ogólny

t

Porównania między modelami zagnieżdżonymi (za pomocą „tabel anova”, takich jak konfiguracje) są nieco inne, ale podobne (obejmujące asymptotyczne testy chi-kwadrat). Jeśli nie masz nic przeciwko AIC i BIC, możesz je obliczyć.

Podobne rodzaje wyświetlaczy diagnostycznych są na ogół stosowane, ale ich interpretacja może być trudniejsza.

Wiele z wielu intuicji regresji liniowej zostanie przeniesionych, jeśli będziesz pamiętać o różnicach.

Yx

mi(Y)=exp(η)=exp(Xβ)=exp(β0+β1x)

Var(Y)=σ2)

Yx

Czy mogę przekształcić zmienne w ten sam sposób (już odkryłem, że przekształcanie zmiennej zależnej jest złym wywołaniem, ponieważ musi być liczbą naturalną)?

(Zwykle) nie chcesz przekształcać odpowiedzi (DV). Czasami możesz chcieć przekształcić predyktory (IV), aby uzyskać liniowość predyktora liniowego.

Ustaliłem już, że ujemny rozkład dwumianowy pomógłby w nadmiernej dyspersji moich danych (wariancja wynosi około 2000, średnia wynosi 48).

Tak, może poradzić sobie z nadmierną dyspersją. Ale uważaj, aby nie pomylić warunkowej dyspersji z bezwarunkową dyspersją.

Innym powszechnym podejściem - choć trochę bardziej niezręcznym i mniej satysfakcjonującym dla mnie - jest regresja quasi-Poissona (regresja rozproszona Poissona).

Z ujemnym dwumianowym jest w rodzinie wykładniczej, jeśli podasz konkretny jeden z jego parametrów (sposób, w jaki zwykle jest on ponownie parametryzowany przynajmniej dla GLMS). Niektóre pakiety będą do niego pasować, jeśli podasz parametr, inne zawiążą oszacowanie ML tego parametru (powiedzmy poprzez prawdopodobieństwo profilu) wokół procedury GLM, automatyzując proces. Niektóre ograniczą cię do mniejszego zestawu dystrybucji; nie mówisz, jakiego oprogramowania możesz użyć, więc trudno powiedzieć tam więcej.

Myślę, że zwykle log-link jest zwykle używany z ujemną regresją dwumianową.

Istnieje wiele dokumentów na poziomie wprowadzającym (łatwo dostępnych za pośrednictwem Google), które prowadzą przez podstawową analizę Poissona GLM, a następnie ujemną dwumianową analizę danych GLM, ale możesz rzucić okiem na książkę o GLM i może najpierw zrobić małą regresję Poissona żeby się do tego przyzwyczaić.

Glen_b - Przywróć Monikę
źródło
1
+1 Zgadzam się z COOLSerdash. Wiele dobrych informacji tutaj! Oprócz zalecanej wyszukiwarki Google szczególnie polecam podręcznik o nazwie Econometrics by Example autorstwa Gujarati. Rozdział 12 obejmuje model regresji Poissona i model regresji ujemno-dwumianowej. Jak sugeruje tytuł książki, istnieją przykłady. Dane wykorzystane w książce są dostępne na stronie internetowej towarzyszącej książce, podobnie jak streszczenie samego rozdziału 12 . Zalecam, aby PO to sprawdził.
Graeme Walsh
Spóźniam się na przyjęcie ... ale ta odpowiedź pomogła mi zrozumieć uogólnione modele liniowe lepiej niż cały stos książek w bibliotece.
haff
0

Niektóre odniesienia, które okazały się pomocne w analizie danych z ujemnym rozkładem dwumianowym, w szczególności (w tym założenia do listowania) i ogólnie GLM / GLMM to:

Bates, DM, B. Machler, B. Bolker i S. Walker. 2015. Montaż liniowych modeli efektów mieszanych za pomocą lme4. J. Stat. Oprogramowanie 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens i J. White. Uogólnione liniowe modele mieszane: praktyczny przewodnik po ekologii i ewolucji. Trendy w ekologii i ewolucji 127-135.

Zeileis A., C. Keleiber C i S. Jackman 2008. Modele regresji dla danych zliczania w RJ Stat. Oprogramowanie. 27: 1-25

Zuur AF, EN Iene, N. Walker, AA Saveliev i GM Smith. 2009. Modele efektów mieszanych i rozszerzenia w ekologii z R. Springerem, NY, USA.

Todd Johnson
źródło