Czy w przypadku uśredniania modelu GLM uśredniamy prognozy na skali łącza lub odpowiedzi?

12

Aby obliczyć prognozy uśrednione w modelu na skali odpowiedzi GLM, która jest „poprawna” i dlaczego?

  1. Obliczyć uśrednioną prognozę modelu na skali łącza, a następnie przekształcić wstecz do skali odpowiedzi, lub
  2. Wstecz przekształć prognozy do skali odpowiedzi, a następnie oblicz średnią modelową

Prognozy są bliskie, ale nie równe, jeśli model jest GLM. Różne pakiety R dają opcje dla obu (z różnymi ustawieniami domyślnymi). Kilku kolegów głośno argumentowało, że nr 1 jest zły, ponieważ „każdy robi nr 2”. Moja intuicja mówi, że nr 1 jest „poprawny”, ponieważ utrzymuje liniową matematykę liniowo (nr 2 uśrednia rzeczy, które nie są w skali liniowej). Prosta symulacja pokazuje, że # 2 ma bardzo (bardzo!) Nieco mniejszy MSE niż # 1. Jeśli nr 2 jest poprawny, jaki jest powód? A jeśli nr 2 jest poprawny, dlaczego mój powód (utrzymywanie liniowej matematyki liniowej) jest niewłaściwy?

Edycja 1: Obliczanie marginalnych średnich ponad poziomy innego czynnika w GLM jest podobnym problemem do pytania, które zadaję powyżej. Russell Lenth oblicza marginalne środki modeli GLM, używając „timing” (jego słowa) z nr 1 (w pakiecie emmeans), a jego argumentacja jest podobna do mojej intuicji.

Edycja 2: Używam uśredniania modelu, aby odnieść się do alternatywy dla wyboru modelu, w której prognozę (lub współczynnik) szacuje się jako średnią ważoną dla wszystkich lub podzbioru „najlepszych” modeli zagnieżdżonych (patrz odnośniki i pakiety R poniżej) .

Biorąc pod uwagę modeli zagnieżdżonych, gdzie jest prognozą liniową (w przestrzeni łącza) dla pojedynczego dla modelu , a jest wagą dla modelu , prognozą uśrednioną dla modelu z wykorzystaniem # 1 powyżej (średnia dla łącza Skala, a następnie transformacja zwrotna do skali odpowiedzi) to:η m i i m w m mM.ηjamjamwmm

Y^ja=sol-1(m=1M.wmηjam)

a prognozowanie uśrednione za pomocą modelu z wykorzystaniem powyższego punktu 2 (transformacja wsteczna wszystkich prognoz a następnie średnia na skali odpowiedzi) wynosi:M.

Y^ja=m=1M.wmsol-1(ηjam)

Niektóre bayesowskie i częste metody metod uśredniania modeli to:

  • Hoeting, JA, Madigan, D., Raftery, AE i Volinsky, CT, 1999. Uśrednianie modelu Bayesa: samouczek. Nauki statystyczne, str. 382–401.

  • Burnham, KP i Anderson, DR, 2003. Wybór modelu i wnioskowanie wielomodelowe: praktyczne podejście teoretyczno-informacyjne. Springer Science & Business Media.

  • Hansen, BE, 2007. Uśrednianie modelu metodą najmniejszych kwadratów. Econometrica, 75 (4), s. 1175,1189.

  • Claeskens, G. i Hjort, NL, 2008. Wybór modelu i uśrednianie modelu. Cambridge Books.

Pakiety R obejmują BMA , MuMIn , BAS i AICcmodavg . (Uwaga: nie jest to pytanie o mądrość uśredniania modelu bardziej ogólnie).

JWalker
źródło
1
Podejrzewam, że powodem, dla którego twoje pytanie nie ma odpowiedzi, jest to, że inni czytelnicy, tacy jak ja, nie rozumieją twojego pytania. Co dokładnie rozumiesz przez „uśrednianie modelu”? Proszę szczegółowo opisać kontekst, abyśmy mogli zrozumieć, jaki problem próbujesz rozwiązać. O ile widzę, pakiet emmeans nie uśrednia prognoz z różnych modeli.
Gordon Smyth,
1
Dzięki, że o to pytasz, i widzę, że dodanie notatki Russell Lenth myli moje pytanie. Próbowałem to wyjaśnić powyżej. Pakiet emmeans będzie obliczał średnie krańcowe i SE na poziomach innego czynnika, a statystyki te są obliczane na skali łącza, a następnie przekształcane z powrotem. Zobacz sekcję „Model jest naszym najlepszym przewodnikiem” .
JWalker,
Byłbym naprawdę zainteresowany wszelkimi odpowiedziami na to pytanie. Tymczasem komentarz. Ten wynik MSE jest obliczany w skali przekształconej wstecz. Założę się, że przy tych samych wynikach symulacji MSE, obliczony na skali łącza, byłby mniejszy z numerem 1 niż z numerem 2. Powodem jest to, że średnia próby jest estymatorem najmniejszych kwadratów średniej populacji, nawet w niewłaściwej skali.
Russ Lenth

Odpowiedzi:

6

Optymalny sposób łączenia estymatorów lub predyktorów zależy od funkcji straty, którą próbujesz zminimalizować (lub funkcji użyteczności, którą próbujesz zmaksymalizować).

Mówiąc ogólnie, jeśli funkcja straty mierzy błędy predykcji na skali odpowiedzi, to uśrednianie predyktorów na skali odpowiedzi jest prawidłowe. Jeśli na przykład dążysz do zminimalizowania oczekiwanego błędu kwadratu prognozy na skali odpowiedzi, wówczas predyktor średniej średniej tylnej będzie optymalny i, w zależności od założeń modelu, może być równoważny prognozom uśredniania na skali odpowiedzi.

Należy zauważyć, że uśrednianie w skali predyktora liniowego może bardzo słabo działać w przypadku modeli dyskretnych. Załóżmy, że używasz regresji logistycznej do przewidywania prawdopodobieństwa zmiennej binarnej odpowiedzi. Jeśli którykolwiek z modeli daje oszacowane prawdopodobieństwo zerowe, to predyktorem liniowym dla tego modelu będzie minus nieskończoność. Biorąc średnią nieskończoności z dowolną liczbą skończonych wartości, nadal będzie ona nieskończona.

Czy sprawdziłeś listę referencji? Jestem pewien, że Hoeting i wsp. (1999) na przykład omawiają funkcje strat, chociaż być może nie są zbyt szczegółowe.

Gordon Smyth
źródło
1
Doskonały. Dziękuję za tę odpowiedź (witam innych!). Zakładam, że „wtedy predyktory uśredniające mogą być optymalne lub zbliżone do nich” to predyktory uśredniające w skali odpowiedzi. Nota logistyczna jest szczególnie pomocna.
JWalker
1
@rvl Jeśli chodzi o liniowość funkcji straty, myślałem w kategoriach funkcji wpływu straty. Zgadzam się, że to trochę tajemnicze, więc zredagowałem swoje komentarze. Muszę się nie zgodzić z twoimi innymi uwagami. GLM są szacowane na podstawie ML, a nie na podstawie kwadratowej utraty błędów. Pomimo nazwy algorytm IRLS, który jest popularny w GLM, nie minimalizuje sumy kwadratów, a zmienna robocza IRLS obejmuje standaryzowane reszty na skali odpowiedzi, a nie na skali łącza. W każdym razie szacowanie i przewidywanie nie są takie same i nie muszą mieć takich samych funkcji strat.
Gordon Smyth,
@rvl Dokładnie dopasowane wartości zero występują często w regresji logistycznej i były omawiane na tym forum kilka razy.
Gordon Smyth,
@rvl Strata nie jest oceniana na skali linków. Ta dyskusja nie jest dla mnie właściwym miejscem do zaoferowania tutorialu na temat GLM - odsyłam cię do mojej książki na temat GLM, którą Springer opublikuje za około miesiąc. Ta dyskusja nie jest też właściwym miejscem do zaoferowania alternatywnej odpowiedzi na pierwotne pytanie. Napisz poprawną odpowiedź, jeśli chcesz to zrobić.
Gordon Smyth,
Oto link do naszej książki na temat GLM: doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth,