Czy modele mieszane są przydatne jako modele predykcyjne?

24

Jestem trochę zdezorientowany co do zalet mieszanych modeli w zakresie modelowania predykcyjnego. Ponieważ modele predykcyjne mają zwykle przewidywać wartości wcześniej nieznanych obserwacji, wydaje mi się oczywiste, że jedynym sposobem, w jaki model mieszany może być użyteczny, jest jego zdolność do przewidywania na poziomie populacji (to znaczy bez dodawania żadnych efektów losowych). Problem polega jednak na tym, że do tej pory z mojego doświadczenia przewidywania na poziomie populacji oparte na modelach mieszanych są znacznie gorsze niż prognozy oparte na standardowych modelach regresji z tylko ustalonymi efektami.

Jaki jest sens modeli mieszanych w odniesieniu do problemów z prognozowaniem?

EDYTOWAĆ. Problem jest następujący: dopasowałem model mieszany (z efektami stałymi i losowymi) i standardowy model liniowy tylko z efektami stałymi. Kiedy przeprowadzam walidację krzyżową, otrzymuję następującą hierarchię dokładności predykcyjnej: 1) modele mieszane podczas przewidywania za pomocą stałych i losowych efektów (ale działa to oczywiście tylko w przypadku obserwacji ze znanymi poziomami zmiennych efektów losowych, więc to podejście predykcyjne wydaje się nie nadają się do rzeczywistych aplikacji predykcyjnych!); 2) standardowy model liniowy; 3) model mieszany przy stosowaniu prognoz na poziomie populacji (czyli z wyrzucanymi losowymi efektami). Zatem jedyną różnicą między standardowym modelem liniowym a modelem mieszanym jest nieco inna wartość współczynników z powodu różnych metod szacowania (tj. Istnieją te same efekty / predyktory w obu modelach, ale mają one różne powiązane współczynniki).

Moje zamieszanie sprowadza się zatem do pytania, dlaczego miałbym kiedykolwiek używać modelu mieszanego jako modelu predykcyjnego, skoro stosowanie modelu mieszanego do generowania prognoz na poziomie populacji wydaje się być gorszą strategią w porównaniu ze standardowym modelem liniowym.

sztal
źródło
Jak sobie radzisz z przewidywaniami? Czy nie używasz efektów losowych, czy naprawiasz swoje losowe efekty na ich podstawie? (Tj. Wyrzucasz losowe efekty w czasie przewidywania?)
Wayne
O ile dobrze rozumiem efekty losowe, ustalenie efektów losowych na ich średnich jest tym samym, co ich wyrzucenie, ponieważ efekty losowe (przynajmniej w parametryzacji, której używam) są generowane z normalnych rozkładów średnich 0 i sigma wariancji. Ale w każdym razie, ponieważ nie znam wartości zmiennych efektów losowych dla nowych obserwacji, to oczywiście nie używam efektów losowych w czasie przewidywania, tylko efekty ustalone.
sztal
1
Być może warto przejrzeć ten artykuł „O skuteczności klasyfikatorów regresji logistycznej opartych na modelu mieszanym dla danych podłużnych”, search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/…
Jon
1
sztal: Oczywiście masz rację. Próbowałem odpowiedzieć szybko i powiedziałem coś nieistotnego. Znalazłem artykuł ( gllamm.org/JRSSApredict_09.pdf ), który dotyczy przewidywania w Rozdziale 7. Muszę powiedzieć, że nie mogę streścić go w komentarzu, co oznacza, że ​​tak naprawdę go nie rozumiem.
Wayne
Ostatnie pytanie: kiedy porównujesz tylko efekty stałe z efektami mieszanymi, czy używasz tych samych efektów stałych w każdym z dodatkiem jedynie czegoś w rodzaju przechwytywania na poziomie indywidualnym? Wydaje się, że w tej sytuacji powinieneś mieć bardzo podobne efekty, z wyjątkiem lepszego wyobrażenia o swoim prawdziwym interwale predykcyjnym.
Wayne

Odpowiedzi:

17

Zależy to od charakteru danych, ale ogólnie oczekiwałbym, że model mieszany będzie lepszy od modeli tylko z efektami stałymi.

Weźmy przykład: modelowanie zależności między słońcem a wysokością łodyg pszenicy. Mamy wiele pomiarów poszczególnych łodyg, ale wiele łodyg jest mierzonych w tych samych miejscach (które są podobne w glebie, wodzie i innych rzeczach, które mogą wpływać na wysokość). Oto kilka możliwych modeli:

1) wysokość ~ słońce

2) wysokość ~ słońce + strona

3) wysokość ~ słońce + (1 | strona)

Chcemy wykorzystać te modele do przewidywania wysokości nowych łodyg pszenicy, biorąc pod uwagę pewne oszacowanie nasłonecznienia. Zignoruję karę za parametr, którą zapłacilibyście za posiadanie wielu witryn w modelu tylko z efektami stałymi i rozważę względną moc predykcyjną modeli.

Najważniejsze pytanie dotyczy tego, czy te nowe punkty danych, które próbujesz przewidzieć, pochodzą z jednego z mierzonych miejsc; mówisz, że to jest rzadkie w prawdziwym świecie, ale tak się dzieje.

A) Nowe dane pochodzą z witryny, którą zmierzyłeś

Jeśli tak, modele # 2 i # 3 przewyższą # 1. Oba wykorzystują bardziej trafne informacje (średni efekt witryny) do przewidywania.

B) Nowe dane pochodzą z niezmierzonej strony

Nadal oczekiwałbym, że model nr 3 będzie lepszy niż modele nr 1 i nr 2 z następujących powodów.

(i) Model nr 3 vs nr 1:

Model nr 1 wygeneruje szacunki, które są stronnicze na korzyść nadmiernie reprezentowanych witryn. Jeśli masz podobną liczbę punktów z każdej witryny i racjonalnie reprezentatywną próbkę witryn, powinieneś uzyskać podobne wyniki z obu stron.

(ii) Model nr 3 vs. nr 2:

Dlaczego w tym przypadku model nr 3 byłby lepszy niż model nr 2? Ponieważ efekty losowe wykorzystują skurcz - efekty strony zostaną „zmniejszone” do zera. Innymi słowy, będziesz miał tendencję do znajdowania mniej skrajnych wartości dla efektów witryny, gdy jest określony jako efekt losowy, niż gdy jest określony jako efekt stały. Jest to przydatne i poprawia zdolność przewidywania, gdy środki populacji można rozsądnie uznać za wyciągnięte z rozkładu normalnego (patrz Paradoks Steina w statystykach ). Jeśli nie oczekuje się, że średnie liczebności populacji będą miały normalny rozkład, może to być stanowić problem, ale zwykle jest to bardzo rozsądne założenie, a metoda jest odporna na małe odchylenia.

[Uwaga dodatkowa: domyślnie przy dopasowywaniu modelu nr 2 większość oprogramowania użyłaby jednej z witryn jako odniesienia i oszacowała współczynniki dla innych witryn, które reprezentują odchylenie od odniesienia. Może się więc wydawać, że nie ma sposobu na obliczenie ogólnego „efektu populacji”. Możesz to jednak obliczyć, uśredniając prognozy dla wszystkich poszczególnych witryn lub prościej, zmieniając kodowanie modelu, aby współczynniki były obliczane dla każdej witryny.]

mkt - Przywróć Monikę
źródło
Dziękuję za odpowiedź. Jestem raczej przekonany. Niestety nie pamiętam teraz dokładnego przypadku, który uzasadniał moje pytanie, ale myślę, że słaba wydajność modelu mieszanego w moim przypadku mogła wynikać z dość nieregularnych rozkładów predyktorów, których użyłem w modelu. Wkrótce zaakceptuję odpowiedź, ale ponieważ pytanie przyciągnęło trochę uwagi, dam jeszcze kilka dni, aby ktoś mógł przedstawić bardziej rygorystyczne wyjaśnienie (być może z kilkoma przykładami).
sztal
1
Dobrze wyłożone. Należy zauważyć, że heirarchiczne przewidywanie efektów specyficznych dla miejsca, które powodują powstanie efektów losowych, aby przewidzieć dowolne losowe przechwytywanie lub losowe nachylenie empirycznie oszacowane z modelu, powinno być równoważne z posiadaniem szeregu indywidualnych poziomów i ustalonych efektów specyficznych dla miejsca w modelu.
AdamO
8

Kontynuacja doskonałej odpowiedzi mkt: z własnego doświadczenia opracowywanie modeli predykcyjnych w dziedzinie ubezpieczeń zdrowotnych, włączanie efektów losowych do modeli predykcyjnych (w tym modeli uczenia maszynowego) ma wiele zalet.

Często jestem proszony o zbudowanie modeli przewidujących przyszłe skutki roszczeń (np. Przyszłe wydatki zdrowotne, długość pobytu itp.) W oparciu o dane historyczne dotyczące roszczeń poszczególnych osób. Często dochodzi do wielu roszczeń na osobę o skorelowanych wynikach. Ignorowanie faktu, że wiele roszczeń jest podzielanych przez tego samego pacjenta, ujawniałoby cenne informacje w modelu predykcyjnym.

Jednym rozwiązaniem byłoby utworzenie zmiennych wskaźnika efektu stałego dla każdego elementu w zbiorze danych i zastosowanie regresji karnej do osobnego zmniejszenia każdego efektu stałego na poziomie elementu. Jeśli jednak w twoich danych są tysiące lub miliony członków, bardziej wydajnym rozwiązaniem zarówno z punktu widzenia obliczeniowego, jak i predykcyjnego może być reprezentowanie stałych efektów na poziomie wielu członków jako pojedynczego składnika efektu losowego o rozkładzie normalnym.

RobertF
źródło