Nadmierna dyspersja i alternatywy modelowania w modelach efektu losowego Poissona z przesunięciami

12

Podczas modelowania zliczania danych z badań eksperymentalnych przy użyciu eksperymentu wewnątrz przedmiotu napotkałem szereg praktycznych pytań. Krótko opisuję eksperyment, dane i to, co do tej pory zrobiłem, a następnie moje pytania.

Cztery różne filmy pokazano sekwencyjnie grupie respondentów. Po każdym filmie przeprowadzany był wywiad, w którym policzyliśmy liczbę wystąpień niektórych stwierdzeń, które były interesujące dla RQ (przewidywana zmienna zliczania). Zarejestrowaliśmy także maksymalną liczbę możliwych zdarzeń (jednostki kodowania; zmienna przesunięcia). Ponadto mierzono kilka cech filmów w skali ciągłej, z których dla jednej mamy hipotezę przyczynową dotyczącą wpływu funkcji filmu na liczbę stwierdzeń, podczas gdy inne są kontrolne (predyktory).

Dotychczas przyjęta strategia modelowania jest następująca:

Oszacuj losowy model Poissona, w którym zmienna przyczynowa jest używana jako zmienna towarzysząca, a pozostałe zmienne jako zmienna towarzysząca. Ten model ma przesunięcie równe „log (jednostki)” (jednostki kodowania). Losowe efekty są pobierane między obiektami (liczby specyficzne dla filmu są zagnieżdżone w obiektach). Potwierdzamy hipotezę przyczynową (sig. Współczynnik zmiennej przyczynowej). W oszacowaniu użyliśmy pakietu lme4 w R, w szczególności funkcji glmer.

Teraz mam następujące pytania. Częstym problemem w regresji Poissona jest nadmierna dyspersja. Wiem, że można to sprawdzić, stosując ujemną regresję dwumianową i oceniając, czy jego parametr dyspersji poprawia dopasowanie modelu prostego modelu Poissona. Nie wiem jednak, jak to zrobić w kontekście losowego efektu.

  • Jak powinienem przetestować nadmierną dyspersję w mojej sytuacji? Przetestowałem naddyspersję w prostej regresji dwumianowej Poissona / ujemnej (bez efektów losowych), którą umiem dopasować. Test sugeruje obecność nadmiernej dyspersji. Ponieważ jednak modele te nie uwzględniają grupowania, przypuszczam, że ten test jest niepoprawny. Nie jestem również pewien roli przesunięcia w testach naddyspersji.
  • Czy istnieje coś takiego jak negatywny dwumianowy model regresji losowego efektu i jak powinienem dopasować go do R?
  • Czy masz sugestie dotyczące alternatywnych modeli, które powinienem wypróbować na danych, tj. Biorąc pod uwagę strukturę powtarzanych pomiarów, zliczanie zmiennych i narażenie (jednostki kodowania)?
tomka
źródło
1
na początek sprawdź sekcję „nadmierna dyspersja” w glmm.wikidot.com/faq
Ben Bolker
1
Dzięki, bardzo pomocna! Może ktoś chce skompilować odpowiedź z tej i innych informacji.
tomka

Odpowiedzi:

1

[0,)

Zamiast sprawdzać nadmierną dyspersję , która nie daje gwarancji uzyskania użytecznej odpowiedzi, i chociaż można zbadać wskaźniki dyspersji w celu oszacowania dyspersji, bardziej pożytecznie sugerowałbym poszukiwanie najlepszej dystrybucji przy użyciu opcji dystrybucji dyskretnej wyszukiwania o dopasowanej jakości program, np . procedura FindDistribution Mathematica . Ten rodzaj wyszukiwania ma dość wyczerpującą rolę w odgadywaniu, co znane dystrybucje działają najlepiej, nie tylko w celu złagodzenia nadmiernej dyspersji, ale także w celu bardziej użytecznego modelowania wielu innych cech danych, np. Dobroci dopasowania mierzonej w tuzinie różne sposoby.

Aby dalej zbadać moje dystrybucje kandydatów, post hoc zbadałbym pozostałości, aby sprawdzić homoscedastyczność i / lub typ dystrybucji, a także rozważyć, czy dystrybucje kandydatów można pogodzić jako odpowiadające fizycznemu wyjaśnieniu danych. Niebezpieczeństwem tej procedury jest identyfikacja dystrybucji, która jest niezgodna z najlepszym modelowaniem rozszerzonego zestawu danych. Niebezpieczeństwo nie wykonania procedury post hoc polega na przypisaniu z góry arbitralnie wybranej dystrybucji bez odpowiedniego testowania (wyrzucanie śmieci). Wyższość post hocpodejście polega na tym, że ogranicza błędy dopasowania, a także na tym polega jego słabość, tzn. może zaniżać błędy modelowania przez czysty przypadek, gdy próbuje się dopasować wiele dystrybucji. To właśnie dlatego badamy pozostałości i rozważamy fizyczność. Podejście odgórne lub podejście a priori nie oferuje takiej post-hocowej kontroli racjonalności. Oznacza to, że jedyną metodą porównania fizyczności modelowania z różnymi rozkładami jest ich porównanie post hoc . Tak powstaje natura teorii fizycznej, testujemy hipotetyczne wyjaśnienie danych wieloma eksperymentami, zanim zaakceptujemy je jako wyczerpujące alternatywne wyjaśnienia.

Carl
źródło