Załóżmy, że dopasowuję regresję dwumianową i uzyskuję oszacowania punktowe i macierz wariancji-kowariancji współczynników regresji. To pozwoli mi uzyskać CI dla oczekiwanego odsetka sukcesów w przyszłym eksperymencie,, ale potrzebuję CI dla obserwowanej proporcji. Opublikowano kilka powiązanych odpowiedzi, w tym symulację (załóżmy, że nie chcę tego robić) oraz link do Krishnamoorthya i in. (Który nie do końca odpowiada na moje pytanie).
Moje rozumowanie jest następujące: jeśli używamy tylko modelu dwumianowego, jesteśmy zmuszeni to założyć jest próbkowany z rozkładu normalnego (z odpowiednim Wald CI) i dlatego niemożliwe jest uzyskanie CI dla obserwowanej proporcji w postaci zamkniętej. Jeśli to założymyjest próbkowany z rozkładu beta, wtedy rzeczy są znacznie łatwiejsze, ponieważ liczba sukcesów będzie podążać za rozkładem dwumianowym. Będziemy musieli założyć, że nie ma niepewności w szacowanych parametrach beta, i .
Istnieją trzy pytania:
1) Teoretyczny: czy można stosować tylko oszacowania punktowe parametrów beta? Wiem, że aby zbudować CI do przyszłej obserwacji w wielokrotnej regresji liniowej
robią tę niepoprawność wariancji terminu, . Rozumiem (popraw mnie, jeśli się mylę), że w praktyce jest to uzasadnienie jest szacowany z dużo większą precyzją niż współczynniki regresji i nie zyskamy wiele, próbując uwzględnić niepewność . Czy podobne uzasadnienie ma zastosowanie do szacowanych parametrów beta, i ?
2) Jaki pakiet jest lepszy (R: gamlss-bb, betareg, aod ?; Mam również dostęp do SAS).
3) Biorąc pod uwagę oszacowane parametry beta, czy istnieje (przybliżony) skrót, aby uzyskać kwantyle (2,5%, 97,5%) w celu zliczenia przyszłych sukcesów lub, jeszcze lepiej, w odniesieniu do odsetka przyszłych sukcesów w rozkładzie dwumianowym.
Odpowiedzi:
Odpowiem na wszystkie 3 części.
Istnieją dwa skonfliktowane problemy, po pierwsze metoda stosowana w tym przypadku w celu dopasowania modelu regresji. Po drugie, jak podzielić szacunki na podstawie szacunków, aby przewidzieć nowe oszacowanie.
jeśli twoje zmienne odpowiedzi są rozkładane dwumianowo, zwykle używałbyś regresji logistycznej lub regresji probit (glm z normalnym cdf jako funkcją link).
W przypadku regresji logistycznej odpowiedzią będzie stosunek obserwowanych zliczeń podzielony przez znaną górną granicę, tj.yi/ni . Następnie weź swoje predyktory / zmienne towarzyszące i umieść je w wywołaniu R funkcji glm. Zwrócony obiekt zawiera wszystko, czego potrzebujesz do wykonania pozostałych obliczeń.
W przypadku modelu regresji liniowej wzór na przedział predykcji jest następujący:
Możesz użyć modelu regresji liniowej jako przybliżenia glm. Aby to zrobić, należy wykonać formułę regresji liniowej dla liniowej kombinacji predyktorów przed wykonaniem odwrotnej transformacji łącza w celu przywrócenia prawdopodobieństwa z powrotem w skali 0-1. Kod służący do tego jest zapisywany w funkcji przewidywanej R.glm () R. Oto przykładowy kod, który również stworzy niezłą fabułę. ( EDYCJA : Ten kod dotyczy przedziału ufności, a nie przedziału prognozowania)
Możesz zrobić to samo dla dowolnego glm, np. Poissona, odwrotnego gaussa, gamma itp. W każdym przypadku wykonaj przedział predykcji na skali liniowej kombinacji predyktorów. Po uzyskaniu dwóch punktów końcowych przedziału prognozy przekształcasz te punkty końcowe za pomocą łącza odwrotnego. Dla każdego z wymienionych przeze mnie glms link odwrotny może być inny niż logit, który tu napisałem. Mam nadzieję że to pomoże.
źródło