Kiedy regresję logistyczną rozwiązuje się w formie zamkniętej?

31

Weźmy i i załóżmy, że modelujemy zadanie przewidywania y dla x za pomocą regresji logistycznej. Kiedy współczynniki regresji logistycznej można zapisać w formie zamkniętej?x{0,1}rey{0,1}

Jednym z przykładów jest użycie modelu nasyconego.

To znaczy zdefiniuj , gdzie indeksuje zestawy w zestawie mocy , a zwraca 1, jeśli wszystkie zmienne w -tym zestawie to 1, a w przeciwnym razie 0. Następnie możesz wyrazić każde w tym modelu regresji logistycznej jako logarytm racjonalnej funkcji statystyki danych.i { x 1 , , x d } f i i w iP(y|x)exp(iwifi(xi))i{x1,,xd}fiiwja

Czy istnieją inne ciekawe przykłady, gdy istnieje zamknięty formularz?

Jarosław Bułatow
źródło
4
Zakładam, że masz na myśli „kiedy MLE parametrów mają postać zamkniętą?”
Glen_b
Czy możesz podać więcej szczegółów, co zrobiłeś? Twoje pytanie brzmi, jakbyś próbował uzyskać zwykły estymator najmniejszych kwadratów dla problemu regresji logistycznej?
Momo
1
Dzięki za interesujący post / pytanie, Jarosław. Czy masz odniesienie do pokazanego przykładu?
Bitowy
1
Minęło trochę czasu, ale być może było to w książce Lauritzena „Modele graficzne”. Istnieją szersze podstawy odpowiedzi na to pytanie - rozwiązanie jest zamknięte, gdy wykres (hiper) utworzony przez wystarczającą statystykę jest akordalny
Jarosław Bułatow
To może być interesujące tandfonline.com/doi/abs/10.1080/... Uważam, że jest to szczególny przypadek rozwiązania analitycznego, gdy masz tylko stół 2x2
Austin

Odpowiedzi:

33

Jak zauważył kjetil b halvorsen, na swój sposób cudem jest regresja liniowa dopuszczająca rozwiązanie analityczne. A dzieje się tak tylko dzięki liniowości problemu (w odniesieniu do parametrów). W OLS masz który ma warunki pierwszego rzędu - 2 i ( y i - x i β ) x i = 0 W przypadku problemu z p

i(yixiβ)2minβ,
2i(yixiβ)xi=0
pZmienne (w tym na stałym poziomie, w razie potrzeby, istnieje kilka problemów regresji przez pochodzenie, za) jest to system z równań i p nieznanych. Co najważniejsze, jest to układ liniowy, dzięki czemu można znaleźć rozwiązanie przy użyciu standardowej teorii i praktyki algebry liniowej . Ten system będzie miał rozwiązanie z prawdopodobieństwem 1, chyba że masz idealnie współliniowe zmienne.pp

Teraz, dzięki regresji logistycznej, rzeczy nie są już takie proste. Zapisując funkcję log-wiarygodności, a przy jego pochodna znaleźć MLE, mamy l

l(y;x,β)=jayjalnpja+(1-yja)ln(1-pja),pja=(1+exp(-θja))-1,θja=xjaβ,
Parametryβwprowadzają to w bardzo nieliniowy sposób: dla każdegoiistnieje funkcja nieliniowa i są one dodawane razem. Nie ma rozwiązania analityczne (z wyjątkiem prawdopodobnie w banalnej sytuacji z dwóch obserwacji, czy coś takiego) i trzeba użyćnieliniowych metod optymalizacji, aby znaleźć szacunki p .
lβ=idpidθ(yipi1yi1pi)xi=i[yi11+exp(xiβ)]xi
βiβ^

Nieco głębsze spojrzenie na problem (biorąc pod uwagę drugą pochodną) pokazuje, że jest to wypukły problem optymalizacji znalezienia maksimum funkcji wklęsłej (gloryfikowana parabola wielowymiarowa), więc jedno z nich istnieje i każdy rozsądny algorytm powinien go znaleźć szybko, albo wszystko wyleci w nieskończoność. To ostatnie dzieje się z regresją logistyczną, gdy dla niektórych cP.rob[Yja=1|xjaβ>do]=1do, tj. masz doskonałą prognozę. Jest to raczej nieprzyjemny artefakt: można by pomyśleć, że gdy masz doskonałą prognozę, model działa doskonale, ale co ciekawe, jest odwrotnie.

StasK
źródło
pytanie brzmi, dlaczego twoje ostatnie równanie nie jest możliwe do rozwiązania. czy wynika to z odwrotności funkcji logistycznej przy 0 i 1, czy z ogólnej nieliniowości?
eyaler
5
(+1) Odnośnie ostatniego akapitu: Z matematycznego punktu widzenia to robi pracę „doskonale” w tym sensie, że MLE przyniesie doskonałe oddzielającą hiperpłaszczyznę. To, czy Twój algorytm numeryczny zachowuje się rozsądnie w takich okolicznościach, stanowi osobną kwestię. W takich sytuacjach często stosuje się wygładzanie Laplace'a.
kardynał
@eyaler, powiedziałbym, że jest to spowodowane ogólną nieliniowością. Rozumiem, że istnieje ograniczony zestaw okoliczności, w których można to rozwiązać, chociaż nie wiem, jakie są te okoliczności.
StasK
1
Nie rozumiem, jaki jest obecny stan matematyczny, który powoduje, że system nie ma rozwiązania w formie zamkniętej? Czy istnieje ogólny warunek, w którym rzeczy ogólnie nie mają zamkniętych rozwiązań?
Charlie Parker
czy fakt, że regresja logistyczna nie ma zamkniętej formy, jest czymś, co można udowodnić, patrząc na iterację gradientu spadku?
Charlie Parker
8

Ten post pierwotnie miał być długim komentarzem, a nie pełną odpowiedzią na pytanie.

Z pytania wynika, że ​​nieco niejasne jest, czy interes leży tylko w przypadku binarnym, a może w bardziej ogólnych przypadkach, w których mogą być ciągłe lub przyjmować inne dyskretne wartości.

Jeden przykład, który nie do końca odpowiada na pytanie, ale jest powiązany i który podoba mi się, dotyczy rankingów preferencji pozycji uzyskanych za pomocą porównań w parach. Model Bradleya-Terry'ego można wyrazić jako regresję logistyczną, w której

losoljat(Par(Yjajot=1))=αja-αjot,
αjajaYjajot=1jajot

Jeśli przeprowadzane jest pełne porównywanie okrężne (tzn. Dla każdego nieuporządkowanego rejestrowana jest preferencja parowa (ja,jot)α^jaS.ja=jotjaYjajot

Aby to zinterpretować, wyobraź sobie pełny turniej typu round-robin w ulubionym sporcie wyczynowym. Następnie wynik ten mówi, że model Bradleya-Terry'ego uszeregowuje graczy / drużyny według ich procentu wygranych. To, czy jest to wynik zachęcający, czy rozczarowujący, zależy od twojego punktu widzenia.

Uwaga: Ten wynik w kolejności szeregowania nie obowiązuje na ogół, gdy nie jest odtwarzany pełny runda.

kardynał
źródło
2
Interesowałem się wersją binarną, ponieważ była najłatwiejsza do analizy. Znalazłem bardzo szeroki wystarczający warunek w pracach Lauritzena - dostajesz zamkniętą formę, jeśli odpowiedni log-liniowy model ulega rozkładowi
Jarosław Bułatow