Stosując regresję OLS do ciągłej odpowiedzi, można zbudować równanie regresji wielokrotnej, uruchamiając sekwencyjnie regresje reszt na każdej współzmiennej. Moje pytanie brzmi: czy istnieje sposób, aby to zrobić za pomocą regresji logistycznej za pomocą reszt regresji logistycznej ?
To znaczy, jeśli chcę oszacować przy użyciu standardowego uogólnionego modelu modelowania liniowego, czy istnieje sposób na uruchomienie regresji logistycznej względem x i uzyskanie pseudo-reszt R_1 , a następnie regresję R_1 na z, aby uzyskaj obiektywny estymator współczynników regresji logistycznej. Doceniamy odniesienia do podręczników lub literatury.
regression
logistic
residuals
Ben Ogorek
źródło
źródło
Odpowiedzi:
W standardowej wielokrotnej regresji liniowej zdolność dopasowania szacunków zwykłych najmniejszych kwadratów (OLS) w dwóch krokach pochodzi z twierdzenia Frisch – Waugh – Lovell . Twierdzenie to pokazuje, że oszacowanie współczynnika dla konkretnego predyktora w wielokrotnym modelu liniowym jest równe oszacowaniu uzyskanemu przez regresję reszt odpowiedzi (reszt z regresji zmiennej odpowiedzi względem innych zmiennych objaśniających) względem reszt predyktora (reszty z regresji zmiennej predykcyjnej względem innych zmiennych objaśniających). Najwyraźniej poszukujesz analogii do tego twierdzenia, którą można zastosować w modelu regresji logistycznej.
W przypadku tego pytania pomocne jest przypomnienie charakterystyki ukrytej zmiennej regresji logistycznej :
W tej charakterystyce modelu zmienna utajona odpowiedź jest nieobserwowalna, a zamiast tego obserwujemy wskaźnik który mówi nam, czy utajona odpowiedź jest dodatnia. Ta forma modelu wygląda podobnie do wielokrotnej regresji liniowej, z tym wyjątkiem, że stosujemy nieco inny rozkład błędów (rozkład logistyczny zamiast rozkładu normalnego), a co ważniejsze, obserwujemy tylko wskaźnik pokazujący, czy ukryta odpowiedź jest dodatnia, czy nie .Y∗i Yi
Stwarza to problem przy każdej próbie utworzenia dwuetapowego dopasowania modelu. To twierdzenie Frisch-Waugh-Lovell opiera się na zdolności do uzyskiwania pośrednich reszt dla odpowiedzi i predyktora zainteresowania w porównaniu z innymi zmiennymi objaśniającymi. W niniejszym przypadku resztki możemy uzyskać jedynie ze „skategoryzowanej” zmiennej odpowiedzi. Utworzenie dwuetapowego procesu dopasowania dla regresji logistycznej wymagałoby użycia resztkowych odpowiedzi z tej skategoryzowanej zmiennej odpowiedzi, bez dostępu do ukrytej odpowiedzi leżącej u podstaw. Wydaje mi się to poważną przeszkodą i chociaż nie okazuje się to niemożliwe, wydaje się, że niemożliwe jest dopasowanie modelu w dwóch etapach.
Poniżej przedstawię opis tego, co byłoby wymagane, aby znaleźć dwuetapowy proces dopasowywania do regresji logistycznej. Nie jestem pewien, czy istnieje rozwiązanie tego problemu, czy też istnieje dowód niemożliwości, ale materiał tutaj powinien pomóc ci zrozumieć, co jest wymagane.
Jak wyglądałoby dopasowanie dwuetapowej regresji logistycznej? Załóżmy, że chcemy skonstruować dwuetapowe dopasowanie do modelu regresji logistycznej, w którym parametry są szacowane za pomocą oszacowania maksymalnego prawdopodobieństwa na każdym etapie. Chcemy, aby proces obejmował etap pośredni, który pasuje do następujących dwóch modeli:
Szacujemy współczynniki tych modeli (za pośrednictwem MLE), co daje wartości dopasowania pośredniego . Następnie w drugim kroku dopasowujemy model:α^0,α^X,γ^0,γ^X
Jak podano, procedura ma wiele stałych elementów, ale funkcje gęstości i w tych krokach pozostają nieokreślone (chociaż powinny to być rozkłady o zerowej średniej, które nie zależą od danych). Aby uzyskać dwuetapową metodę dopasowania przy tych ograniczeniach, musimy wybrać i aby upewnić się, że MLE dla w tym dwustopniowym algorytmie dopasowania modelu jest taki sam, jak MLE uzyskany z jednoetapowego modelu regresji logistycznej powyżej.g f g f βZ
Aby sprawdzić, czy jest to możliwe, najpierw piszemy wszystkie oszacowane parametry z pierwszego kroku:
Niech , aby funkcja logarytmu wiarygodności dla drugiego kroku była:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
Wymagamy, aby maksymalizującą wartość tej funkcji był MLE modelu wielokrotnej regresji logistycznej. Innymi słowy wymagamy:
Pozostawiam to innym do ustalenia, czy istnieje rozwiązanie tego problemu, czy dowód braku rozwiązania. Podejrzewam, że „kategoryzacja” zmiennej utajonej odpowiedzi w regresji logistycznej uniemożliwi znalezienie dwuetapowego procesu.
źródło
Być może źle interpretuję to pytanie. Wątpię, czy można zbudować równanie regresji liniowej przez regresję reszt w sposób określony przez OP . Metoda OP działałaby tylko wtedy, gdy predyktory są od siebie niezależne.
Aby to zadziałało, załóżmy, że jest wektorem wyniku, jest macierzą modelu dla predyktorów już w modelu i chcesz uwzględnić . Musisz uzyskać regresję reszty regresji na stosunku do reszty regresji na aby uzyskać współczynnik OLS dla .y X x1 y X x1 X x1
Oto prosty przykład:
Dopasuj model do OLS:
Regresja pozostałości:
To źle, musisz dopasować:
Który zwraca odpowiedni współczynnik dla x2, wyrównuje się on z oczekiwanymi różnicami y, biorąc pod uwagę różnice x2, utrzymując stałą x1 (biorąc ją zarówno z y, jak i x1).
Poza tym w regresji logistycznej byłoby to nawet bardziej problematyczne, ponieważ współczynniki regresji logistycznej cierpią z powodu pomijanych zmiennych stronniczości nawet przy braku pomieszanych relacji, patrz tutaj i tutaj , więc dopóki wszystkie predyktory wyniku nie będą w modelu, nie można uzyskać obiektywne szacunki prawdziwych parametrów populacji. Co więcej, nie znam żadnych reszt z modelu, które można by poddać drugiej regresji logistycznej ze wszystkimi wartościami zawartymi między 0 a 1.
Niektóre odniesienia do regresji pozostałości:
źródło
Mam nadzieję, że nie źle interpretuję twoje pytanie, ponieważ moja odpowiedź zmieni nieco sformułowania tego, jak sformułowałeś swój temat.
Myślę, że próbujesz zbudować model regresji, dodając jedną niezależną zmienną na raz. Robisz to, obserwując, która zmienna prospektywna ma najwyższą korelację z resztą pierwszej regresji między Y a X1. Zatem zmienną o najwyższej korelacji z tą pierwszą resztą będzie X2. Masz teraz model z dwiema niezależnymi zmiennymi X1 i X2. Kontynuujesz ten dokładny proces, aby wybrać X3, X4 itp. Jest to proces stopniowy.
Możesz zrobić dokładnie to samo z regresją logistyczną z tego prostego powodu, że regresja logistyczna jest prawie regresją OLS, gdzie zmienną zależną jest log nieparzystej (lub logit). Ale to, czy Y jest logitem, czy nie, nie wpływa na krokowy proces naprzód wspomniany powyżej.
OLS minimalizuje sumę błędów kwadratowych w celu dopasowania do rzeczywistych danych. Regresja logitów wykorzystuje proces maksymalnego prawdopodobieństwa, który generuje dopasowanie, które nie różni się tak bardzo od OLS. I to również (mechanizm dopasowania) nie powinno wpływać na proces stopniowego przewijania, który pozwala zbudować model regresji wielokrotnej, niezależnie od tego, czy jest to regresja OLS, czy regresja Logit.
źródło