Zrozumienie regresji logistycznej i prawdopodobieństwa

12

Jak naprawdę działa oszacowanie parametru / Szkolenie regresji logistycznej? Spróbuję umieścić to, co do tej pory mam.

  1. Dane wyjściowe są danymi wyjściowymi funkcji logistycznej w postaci prawdopodobieństwa zależnego od wartości x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Dla jednego wymiaru tak zwane szanse są zdefiniowane w następujący sposób:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Teraz dodajemy logfunkcję, aby uzyskać W_0 i W_1 w postaci liniowej:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Teraz do części problemowej Korzystanie z prawdopodobieństwa (Big X to y) Czy ktoś może powiedzieć, dlaczego dwa razy rozważamy prawdopodobieństwo y = 1? ponieważ:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

i jak uzyskać z tego wartości ω?

Silnik
źródło

Odpowiedzi:

10

Załóżmy ogólnie, że zdecydowałeś się wziąć model formularza

P(y=1|X=x)=h(x;Θ)

dla niektórych parametrów . Następnie po prostu zanotuj prawdopodobieństwo, tjΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

który jest taki sam jak

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Teraz zdecydowałeś się „założyć” (model)

P(y=1|X=x)=σ(Θ0+Θ1x)

gdzie

σ(z)=1/(1+ez)

więc wystarczy obliczyć formułę prawdopodobieństwa i wykonać algorytm optymalizacji w celu znalezienia , na przykład metody newtonów lub dowolnej innej metody opartej na gradiencie.argmaxΘL(Θ)

Zauważ, że czasami ludzie mówią, że podczas regresji logistycznej nie zwiększają prawdopodobieństwa (jak to zrobiliśmy powyżej), ale raczej minimalizują funkcję straty

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

ale zauważ, że .log(L(Θ))=l(Θ)

Jest to ogólny wzorzec w uczeniu maszynowym: strona praktyczna (minimalizująca funkcje strat, które mierzą, jak „zły” jest model heurystyczny) jest w rzeczywistości równa „stronie teoretycznej” (modelowanie jawnie za pomocą symbolu , maksymalizując wielkości statystyczne, takie jak prawdopodobieństwa), a w rzeczywistości wiele modeli, które nie wyglądają jak probabilistyczne (na przykład SVM), można ponownie zrozumieć w kontekście probabilistycznym i są one w rzeczywistości maksymalizacjami prawdopodobieństw.P

Fabian Werner
źródło
@Werner dziękuję za odpowiedź. Ale wciąż potrzebuję trochę wyjaśnienia. 1. czy mógłbyś wyjaśnić, do czego, u licha, pozostaje 2 w definicji skoro o ile rozumiem, interesuje mnie przypadek . i jak można uzyskać wartości i wielkie dzięki za pomoc! L ( θ ) y i = 1 ω 1 ω 0L(θ)yi=1ω1ω0
Silnik
@Engine: Duże „pi” jest produktem ... podobnie jak duża Sigma to suma ... rozumiesz czy też potrzebujesz dodatkowych wyjaśnień na ten temat? Na drugie pytanie: Powiedzmy, że chcemy zminimalizować funkcję i zaczynamy od ale załóżmy, że nie wiemy / nie możemy wyrazić / nie możemy wizualizować tak, jak ma to być skomplikowane. Teraz pochodną jest . Co ciekawe, jeśli mamy rację od minimum , wskazuje ona w prawo, a jeśli jesteśmy z niej, wskazuje w lewo. Matematycznie pochodna wskazuje kierunek „najsilniejszego wejścia”f ( x ) = x 2 x = 3 f f f = 2 x x = 0Σf(x)=x2x=3fff=2xx=0
Fabian Werner
@ Silnik: W większej liczbie wymiarów zamieniasz pochodną na gradient, tzn. Zaczynasz w losowym punkcie i obliczasz gradient punkcie a jeśli chcesz zmaksymalizować, twój następny punkt to . Następnie obliczasz a następnie to i tak dalej. Nazywa się to gradientem wznoszenia / opadania i jest najczęstszą techniką maksymalizacji funkcji. Teraz robisz to za pomocą lub w notacji , aby znaleźć która maksymalizujef x x 1 x 1 = x 0 + f ( x 0 ) f ( x 1 ) x x 2 = x 1 + f ( x 1 ) L ( Θ ) L ( ω ) ω Lx0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL
Fabian Werner
@ Silnik: W ogóle nie jesteś zainteresowany sprawą ! Jesteś zainteresowany „ ” która „najlepiej wyjaśnia twoje dane”. Z the t pozwól modelowi „mówić za siebie” i wróć do przypadku ale przede wszystkim musisz skonfigurować model! Tutaj „najlepsze wyjaśnienie” oznacza „posiadanie najwyższego prawdopodobieństwa”, ponieważ ludzie tak wymyślili (i myślę, że jest to bardzo naturalne) ... istnieją jednak inne wskaźniki (różne funkcje utraty itp.) posługiwać się! Istnieją dwa produkty, ponieważ chcemy model wyjaśnić , jak również w „dobry”! ω ω y = 1 rok = 1 rok = 0y=1ωωy=1y=1 y=0
Fabian Werner
8

Twoja funkcja prawdopodobieństwa (4) składa się z dwóch części: iloczynu prawdopodobieństwa sukcesu tylko dla osób w próbie, które odniosły sukces, oraz iloczynu prawdopodobieństwa niepowodzenia tylko dla tych osób w próbie, które doświadczyły niepowodzenia. Biorąc pod uwagę, że każda osoba doświadcza sukcesu lub porażki, ale nie obu, prawdopodobieństwo pojawi się dla każdej osoby tylko raz. To właśnie oznacza i na dole znaków produktu., y i = 0,yi=1,yi=0

Współczynniki są uwzględnione w funkcji prawdopodobieństwa przez podstawienie (1) w (4). W ten sposób funkcja prawdopodobieństwa staje się funkcją . Celem maksymalnego prawdopodobieństwa jest znalezienie , która zmaksymalizuje prawdopodobieństwo.ωωω

Maarten Buis
źródło
bardzo dziękuję za odpowiedź, przepraszam, ale nadal nie rozumiem. nie jest oznacza prawdopodobieństwo, że y = 0 [nie występuje] dla wszystkich y produktu. i odwrotnie dla y_i = 1. I wciąż po napisach, w jaki sposób mogę znaleźć wartości, licząc drugą pochodną? czy gradient? bardzo dziękuję za Twoją pomoc ! ωyi=0ω
Silnik
i = 1 N y = 1i=1,y=1N należy rozumieć jako „produkt dla osób do , ale tylko jeśli Zatem pierwsza część dotyczy tylko osób w danych, które doświadczyły zdarzenia Podobnie druga część odnosi się tylko do osób, które nie przeżyły tego wydarzeniai=1Ny=1
Maarten Buis
Istnieje wiele możliwych algorytmów maksymalizacji funkcji prawdopodobieństwa. Najczęściej stosowana metoda Newtona-Raphsona obejmuje obliczenie pierwszej i drugiej pochodnej.
Maarten Buis,