Skrzyżowane efekty losowe i niezrównoważone dane

10

Modeluję niektóre dane, w których, jak sądzę, mam dwa skrzyżowane losowe efekty. Ale zestaw danych nie jest zrównoważony i nie jestem pewien, co należy zrobić, aby to uwzględnić.

Moje dane to zestaw zdarzeń. Zdarzenie ma miejsce, gdy klient spotyka się z dostawcą w celu wykonania zadania, które się powiedzie lub nie. Istnieją tysiące klientów i dostawców, a każdy klient i dostawca uczestniczy w różnej liczbie wydarzeń (około 5 do 500). Każdy klient i dostawca ma poziom umiejętności, a szansa na pomyślne zakończenie zadania zależy od umiejętności obu uczestników. Klienci i dostawcy nie pokrywają się.

Interesują mnie odpowiednie wariancje populacji klientów i dostawców, dzięki czemu możemy wiedzieć, które źródło ma większy wpływ na wskaźnik sukcesu. Chcę również poznać konkretne wartości umiejętności wśród klientów i dostawców, dla których faktycznie mamy dane, aby zidentyfikować najlepszych / najgorszych klientów lub dostawców.

Początkowo chcę założyć, że prawdopodobieństwo sukcesu zależy wyłącznie od połączonych poziomów umiejętności klienta i dostawcy, bez innych stałych efektów. Zakładając, że x jest czynnikiem dla klienta, a y jest czynnikiem dla dostawcy, to w R (używając pakietu lme4) mam model określony jako:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Jednym z problemów jest to, że klienci nie są równomiernie rozmieszczeni między dostawcami. Klienci z wyższymi umiejętnościami są bardziej skłonni do dopasowania do dostawców o wyższych umiejętnościach. Rozumiem, że efekt losowy musi być nieskorelowany z innymi predyktorami w modelu, ale nie jestem pewien, jak to wytłumaczyć.

Ponadto niektórzy klienci i dostawcy mają bardzo mało wydarzeń (mniej niż 10), podczas gdy inni mają wiele (do 500), więc istnieje szeroki rozkład ilości danych, które mamy na temat każdego uczestnika. Idealnie byłoby to odzwierciedlone w „przedziale ufności” wokół oceny umiejętności każdego uczestnika (chociaż myślę, że termin przedział ufności nie jest tutaj całkiem poprawny).

Czy skrzyżowane efekty losowe będą stanowić problem ze względu na niezrównoważone dane? Jeśli tak, jakie inne podejścia powinienem rozważyć?

colonel.triq
źródło

Odpowiedzi:

4

Jeśli chodzi o niezrównoważone dane, glmer jest w stanie poradzić sobie z niezbilansowanymi grupami: w tym właśnie momencie opracowano podejścia oparte na modelach mieszanych w porównaniu z analizami ANOVA z powtarzanymi pomiarami, które są ograniczone do projektów zrównoważonych. Uwzględnienie klientów lub dostawców z niewielką liczbą zdarzeń (nawet tylko jednym) jest nadal lepsze niż ich pominięcie, ponieważ poprawia oszacowanie wariancji rezydualnej (patrz Martin i in. 2011 ).

Jeśli chcesz używać BLUP ( ranef(model)) jako wskaźnika umiejętności, naprawdę będziesz musiał oszacować niepewność wokół swoich prognoz punktowych. Można tego dokonać w ramach częstych, wykorzystując ranef(model, postVar=TRUE)lub poprzez dystrybucję boczną w ramach bayesowskich. Nie należy jednak używać BLUP jako zmiennej odpowiedzi w dalszych modelach regresji: patrz Hadfield i in. (2010) dla przykładów niewłaściwego użycia BLUP i różnych metod, aby odpowiednio uwzględnić ich niepewność.

Jeśli chodzi o korelację umiejętności między klientami a dostawcami, to nierównowaga może być problematyczna, jeśli jest bardzo silna, ponieważ uniemożliwiłaby prawidłowe oszacowanie wariancji z powodu każdego losowego efektu. Wydaje się, że nie istnieje struktura mieszanych modeli, która z łatwością poradziłaby sobie z korelacją między przypadkowymi przechwytywaniami (zobacz tutaj formalne wyrażenie problemu). Czy mógłbyś precyzyjnie określić, jak skorelowane są średnie sukcesy klientów i dostawców?

Charlotte R.
źródło
Dziękuję bardzo za odpowiedź na jedno z moich starych pytań. Odpowiedź jest nadal aktualna, a wskazówki i referencje są mile widziane. Przepraszam, że tyle czasu zajęło mi zauważenie, że tam jest! Oznacziłem to jako rozwiązane.
colonel.triq