Aby obliczyć prognozy uśrednione w modelu na skali odpowiedzi GLM, która jest „poprawna” i dlaczego?
- Obliczyć uśrednioną prognozę modelu na skali łącza, a następnie przekształcić wstecz do skali odpowiedzi, lub
- Wstecz przekształć prognozy do skali odpowiedzi, a następnie oblicz średnią modelową
Prognozy są bliskie, ale nie równe, jeśli model jest GLM. Różne pakiety R dają opcje dla obu (z różnymi ustawieniami domyślnymi). Kilku kolegów głośno argumentowało, że nr 1 jest zły, ponieważ „każdy robi nr 2”. Moja intuicja mówi, że nr 1 jest „poprawny”, ponieważ utrzymuje liniową matematykę liniowo (nr 2 uśrednia rzeczy, które nie są w skali liniowej). Prosta symulacja pokazuje, że # 2 ma bardzo (bardzo!) Nieco mniejszy MSE niż # 1. Jeśli nr 2 jest poprawny, jaki jest powód? A jeśli nr 2 jest poprawny, dlaczego mój powód (utrzymywanie liniowej matematyki liniowej) jest niewłaściwy?
Edycja 1: Obliczanie marginalnych średnich ponad poziomy innego czynnika w GLM jest podobnym problemem do pytania, które zadaję powyżej. Russell Lenth oblicza marginalne środki modeli GLM, używając „timing” (jego słowa) z nr 1 (w pakiecie emmeans), a jego argumentacja jest podobna do mojej intuicji.
Edycja 2: Używam uśredniania modelu, aby odnieść się do alternatywy dla wyboru modelu, w której prognozę (lub współczynnik) szacuje się jako średnią ważoną dla wszystkich lub podzbioru „najlepszych” modeli zagnieżdżonych (patrz odnośniki i pakiety R poniżej) .
Biorąc pod uwagę modeli zagnieżdżonych, gdzie jest prognozą liniową (w przestrzeni łącza) dla pojedynczego dla modelu , a jest wagą dla modelu , prognozą uśrednioną dla modelu z wykorzystaniem # 1 powyżej (średnia dla łącza Skala, a następnie transformacja zwrotna do skali odpowiedzi) to:η m i i m w m m
a prognozowanie uśrednione za pomocą modelu z wykorzystaniem powyższego punktu 2 (transformacja wsteczna wszystkich prognoz a następnie średnia na skali odpowiedzi) wynosi:
Niektóre bayesowskie i częste metody metod uśredniania modeli to:
Hoeting, JA, Madigan, D., Raftery, AE i Volinsky, CT, 1999. Uśrednianie modelu Bayesa: samouczek. Nauki statystyczne, str. 382–401.
Burnham, KP i Anderson, DR, 2003. Wybór modelu i wnioskowanie wielomodelowe: praktyczne podejście teoretyczno-informacyjne. Springer Science & Business Media.
Hansen, BE, 2007. Uśrednianie modelu metodą najmniejszych kwadratów. Econometrica, 75 (4), s. 1175,1189.
Claeskens, G. i Hjort, NL, 2008. Wybór modelu i uśrednianie modelu. Cambridge Books.
Pakiety R obejmują BMA , MuMIn , BAS i AICcmodavg . (Uwaga: nie jest to pytanie o mądrość uśredniania modelu bardziej ogólnie).
Odpowiedzi:
Optymalny sposób łączenia estymatorów lub predyktorów zależy od funkcji straty, którą próbujesz zminimalizować (lub funkcji użyteczności, którą próbujesz zmaksymalizować).
Mówiąc ogólnie, jeśli funkcja straty mierzy błędy predykcji na skali odpowiedzi, to uśrednianie predyktorów na skali odpowiedzi jest prawidłowe. Jeśli na przykład dążysz do zminimalizowania oczekiwanego błędu kwadratu prognozy na skali odpowiedzi, wówczas predyktor średniej średniej tylnej będzie optymalny i, w zależności od założeń modelu, może być równoważny prognozom uśredniania na skali odpowiedzi.
Należy zauważyć, że uśrednianie w skali predyktora liniowego może bardzo słabo działać w przypadku modeli dyskretnych. Załóżmy, że używasz regresji logistycznej do przewidywania prawdopodobieństwa zmiennej binarnej odpowiedzi. Jeśli którykolwiek z modeli daje oszacowane prawdopodobieństwo zerowe, to predyktorem liniowym dla tego modelu będzie minus nieskończoność. Biorąc średnią nieskończoności z dowolną liczbą skończonych wartości, nadal będzie ona nieskończona.
Czy sprawdziłeś listę referencji? Jestem pewien, że Hoeting i wsp. (1999) na przykład omawiają funkcje strat, chociaż być może nie są zbyt szczegółowe.
źródło