Jaka jest właściwa strategia przy podejmowaniu decyzji, którego modelu użyć z danymi zliczania? Mam dane, które muszę zamodelować jako model wielopoziomowy i zalecono mi (na tej stronie), że najlepszym sposobem jest to poprzez błędy lub MCMCglmm. Jednak wciąż próbuję dowiedzieć się o statystykach bayesowskich i pomyślałem, że najpierw powinienem dopasować swoje dane jako uogólnione modele liniowe i zignorować zagnieżdżoną strukturę danych (tylko po to, aby uzyskać mgliste pojęcie, czego się spodziewać).
Około 70% danych to 0, a stosunek wariancji do średniej wynosi 33. Tak więc dane są dość rozproszone.
Po wypróbowaniu wielu różnych opcji (w tym modelu Poissona, modelu dwumianowego ujemnego, modelu quasi i zerowego) widzę bardzo małą spójność wyników (od wszystkiego, co jest znaczące do nic, jest znaczące).
Jak mogę podjąć świadomą decyzję o wyborze modelu na podstawie inflacji 0 i nadmiernej dyspersji? Na przykład, w jaki sposób mogę wywnioskować, że quasi-poisson jest bardziej odpowiedni niż ujemny dwumianowy (lub odwrotnie) i skąd mam wiedzieć, że użycie odpowiednio poradziło sobie (lub nie) z nadmiarem zer? Podobnie, jak mogę ocenić, że nie ma już nadmiernej dyspersji, jeśli stosuje się model z napompowaniem zerowym? lub jak powinienem zdecydować pomiędzy napompowanym zerowym poissonem a zerowym napełnionym ujemnym dwumianem?
źródło
Kilka rzeczy, które należy dodać do tego, co powiedział B_Miner:
1) Napisałeś, że modele różniły się od „wszystkiego znaczącego” do „nic znaczącego”, ale nie jest to dobry sposób na porównanie modeli. Zamiast tego spójrz na przewidywane wartości (jak sugerował B_miner) i rozmiary efektów.
2) Jeśli 70% danych to 0, nie mogę sobie wyobrazić, że model bez inflacji 0 jest odpowiedni.
3) Nawet jeśli nie chcesz korzystać z Bayesian, możesz używać GLMM w SAS (PROC GLIMMIX lub NLMIXED) i R (różne pakiety). Ignorowanie zagnieżdżonej przyrody może wszystko zepsuć.
4) Ogólnie rzecz biorąc, wybór najlepszego modelu jest sztuką, a nie nauką. Są statystyki do wykorzystania, ale są one przewodnikiem po osądzie. Patrząc na to, co napisałeś, powiedziałbym, że model ZINB wygląda dobrze
źródło
Rozumiem, że należy stosować rozkłady z nadwyżką zera, gdy istnieje uzasadnienie, że niektóre przedmioty generują liczbę zer w stosunku do dowolnej innej liczby. Innymi słowy, należy zastosować rozkład z nadwyżką zera, jeśli zera są wytwarzane w oddzielnym procesie niż ten, który wytwarza pozostałe liczby. Jeśli nie masz na to uzasadnienia, biorąc pod uwagę nadmierną dyspersję w próbie, sugeruję zastosowanie ujemnego rozkładu dwumianowego, ponieważ dokładnie reprezentuje on liczebność zer i reprezentuje nieobserwowaną niejednorodność poprzez swobodne oszacowanie tego parametru. Jak wspomniano powyżej, książka Scotta Longa jest świetnym odniesieniem.
źródło
absolutnie zgodził się z tym, co powiedział Matt, najpierw musisz pomyśleć o tle danych ... Nie ma sensu dopasowywanie modeli ZI, gdy w populacji nie ma żadnych wyzwalaczy generujących zero! Zaletą modeli NB jest to, że mogą one wykazywać nieobserwowaną heterogeniczność w losowej zmiennej rozproszonej gamma. Technicznie: Głównymi przyczynami nadmiernej dyspersji są unobs Heterogeniczność i zerowa inflacja. Nie wierzę, że twoje dopasowanie jest złe. Przy okazji, aby uzyskać dobre dopasowanie, należy zawsze porównywać Deviance ze stopniami swobody twojego modelu. Jeśli odchylenie D jest większe niż n- (p + 1) (to jest df), powinieneś poszukać lepszego modelu. Chociaż w większości nie ma lepszych modeli niż ZINB, aby pozbyć się nadmiernej dyspersji.
jeśli chcesz dopasować ZINB do R, pobierz pakiet
pscl
i spróbuj użyć poleceniazeroinfl(<model>, dist=negative)
. Więcej informacji znajduje się?zeroinfl
po załadowaniu wymaganej paczki!źródło