Strategia decydowania o odpowiednim modelu danych zliczania

16

Jaka jest właściwa strategia przy podejmowaniu decyzji, którego modelu użyć z danymi zliczania? Mam dane, które muszę zamodelować jako model wielopoziomowy i zalecono mi (na tej stronie), że najlepszym sposobem jest to poprzez błędy lub MCMCglmm. Jednak wciąż próbuję dowiedzieć się o statystykach bayesowskich i pomyślałem, że najpierw powinienem dopasować swoje dane jako uogólnione modele liniowe i zignorować zagnieżdżoną strukturę danych (tylko po to, aby uzyskać mgliste pojęcie, czego się spodziewać).

Około 70% danych to 0, a stosunek wariancji do średniej wynosi 33. Tak więc dane są dość rozproszone.

Po wypróbowaniu wielu różnych opcji (w tym modelu Poissona, modelu dwumianowego ujemnego, modelu quasi i zerowego) widzę bardzo małą spójność wyników (od wszystkiego, co jest znaczące do nic, jest znaczące).

Jak mogę podjąć świadomą decyzję o wyborze modelu na podstawie inflacji 0 i nadmiernej dyspersji? Na przykład, w jaki sposób mogę wywnioskować, że quasi-poisson jest bardziej odpowiedni niż ujemny dwumianowy (lub odwrotnie) i skąd mam wiedzieć, że użycie odpowiednio poradziło sobie (lub nie) z nadmiarem zer? Podobnie, jak mogę ocenić, że nie ma już nadmiernej dyspersji, jeśli stosuje się model z napompowaniem zerowym? lub jak powinienem zdecydować pomiędzy napompowanym zerowym poissonem a zerowym napełnionym ujemnym dwumianem?

George Michaelides
źródło

Odpowiedzi:

9

Zawsze możesz porównać modele liczenia, patrząc na ich prognozy (najlepiej na zestaw wstrzymujący). J. Scott Long omawia to graficznie (zestawiając przewidywane wartości z rzeczywistymi). Jego podręcznik tutaj opisuje szczegółowo, ale możesz także zajrzeć do 6.4 tego dokumentu .

Możesz porównywać modele za pomocą AIC lub BIC. Istnieje również test o nazwie Test Vounga, którego nie znam, ale można go porównać z napompowaniem zerowym do modeli zagnieżdżonych. Oto artykuł Sas opisujący go krótko na stronie 10, aby zacząć. Jest to również implikowane w księgowaniu R.

B_Miner
źródło
Dzięki za radę. Na pewno postaram się sprawdzić prognozy, zanim zdecyduję się na model
George Michaelides,
5

Kilka rzeczy, które należy dodać do tego, co powiedział B_Miner:

1) Napisałeś, że modele różniły się od „wszystkiego znaczącego” do „nic znaczącego”, ale nie jest to dobry sposób na porównanie modeli. Zamiast tego spójrz na przewidywane wartości (jak sugerował B_miner) i rozmiary efektów.

2) Jeśli 70% danych to 0, nie mogę sobie wyobrazić, że model bez inflacji 0 jest odpowiedni.

3) Nawet jeśli nie chcesz korzystać z Bayesian, możesz używać GLMM w SAS (PROC GLIMMIX lub NLMIXED) i R (różne pakiety). Ignorowanie zagnieżdżonej przyrody może wszystko zepsuć.

4) Ogólnie rzecz biorąc, wybór najlepszego modelu jest sztuką, a nie nauką. Są statystyki do wykorzystania, ale są one przewodnikiem po osądzie. Patrząc na to, co napisałeś, powiedziałbym, że model ZINB wygląda dobrze

Peter Flom - Przywróć Monikę
źródło
Chodzi o to, że w końcu spróbuję wymodelować to za pomocą Bayesian, ale starałem się zrozumieć, jak mogę podjąć decyzję przed dopasowaniem modeli. Jeśli istnieje możliwość, że zignorowanie zagnieżdżonej natury danych popsunie rzeczy, najpierw spróbuję GLMM. Jedyny pakiet dla R, o którym wiem, że potrafi wielopoziomowy ZINB, to glmmADMB. Czy poleciłbyś jakieś inne pakiety?
George Michaelides,
4

Rozumiem, że należy stosować rozkłady z nadwyżką zera, gdy istnieje uzasadnienie, że niektóre przedmioty generują liczbę zer w stosunku do dowolnej innej liczby. Innymi słowy, należy zastosować rozkład z nadwyżką zera, jeśli zera są wytwarzane w oddzielnym procesie niż ten, który wytwarza pozostałe liczby. Jeśli nie masz na to uzasadnienia, biorąc pod uwagę nadmierną dyspersję w próbie, sugeruję zastosowanie ujemnego rozkładu dwumianowego, ponieważ dokładnie reprezentuje on liczebność zer i reprezentuje nieobserwowaną niejednorodność poprzez swobodne oszacowanie tego parametru. Jak wspomniano powyżej, książka Scotta Longa jest świetnym odniesieniem.

Matt
źródło
Dziękuję za odpowiedź. Rzeczywiście, zacząłem zastanawiać się, czy różne elementy mogą dawać zera w stosunku do jakiejkolwiek innej liczby i faktycznie myślę, że istnieje kilka moich zmiennych, które wyjaśniłyby tylko 0 w porównaniu do dowolnej innej liczby. Więc prawdopodobnie powinienem przynajmniej spróbować najpierw ZINB, aby zobaczyć, czy moje zmienne działają tak, jakbym się spodziewał.
George Michaelides,
3

absolutnie zgodził się z tym, co powiedział Matt, najpierw musisz pomyśleć o tle danych ... Nie ma sensu dopasowywanie modeli ZI, gdy w populacji nie ma żadnych wyzwalaczy generujących zero! Zaletą modeli NB jest to, że mogą one wykazywać nieobserwowaną heterogeniczność w losowej zmiennej rozproszonej gamma. Technicznie: Głównymi przyczynami nadmiernej dyspersji są unobs Heterogeniczność i zerowa inflacja. Nie wierzę, że twoje dopasowanie jest złe. Przy okazji, aby uzyskać dobre dopasowanie, należy zawsze porównywać Deviance ze stopniami swobody twojego modelu. Jeśli odchylenie D jest większe niż n- (p + 1) (to jest df), powinieneś poszukać lepszego modelu. Chociaż w większości nie ma lepszych modeli niż ZINB, aby pozbyć się nadmiernej dyspersji.

jeśli chcesz dopasować ZINB do R, pobierz pakiet pscli spróbuj użyć polecenia zeroinfl(<model>, dist=negative). Więcej informacji znajduje się ?zeroinflpo załadowaniu wymaganej paczki!

MarkDollar
źródło