Załóżmy ogólnie, że zdecydowałeś się wziąć model formularza
P.( y= 1 | X= x ) = h ( x ; Θ )
dla niektórych parametrów . Następnie po prostu zanotuj prawdopodobieństwo, tjΘ
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yja= 1P.( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yja= 0P.( y= 0 | x = x ; Θ )
który jest taki sam jak
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yja= 1P.( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yja= 0( 1 - P( y= 1 | x = x ; Θ ) )
Teraz zdecydowałeś się „założyć” (model)
P.( y= 1 | X= x ) = σ( Θ0+ Θ1x )
gdzie
σ( z) = 1 / ( 1 + e- z)
więc wystarczy obliczyć formułę prawdopodobieństwa i wykonać algorytm optymalizacji w celu znalezienia , na przykład metody newtonów lub dowolnej innej metody opartej na gradiencie.argmaxΘL ( Θ )
Zauważ, że czasami ludzie mówią, że podczas regresji logistycznej nie zwiększają prawdopodobieństwa (jak to zrobiliśmy powyżej), ale raczej minimalizują funkcję straty
l ( Θ ) = - ∑i = 1N.yjalog( P( Yja= 1 | X= x ; Θ ) ) + ( 1 - yja) log( P( Yja= 0 | X= x ; Θ ) )
ale zauważ, że .- log( L ( Θ ) ) = l ( Θ )
Jest to ogólny wzorzec w uczeniu maszynowym: strona praktyczna (minimalizująca funkcje strat, które mierzą, jak „zły” jest model heurystyczny) jest w rzeczywistości równa „stronie teoretycznej” (modelowanie jawnie za pomocą symbolu , maksymalizując wielkości statystyczne, takie jak prawdopodobieństwa), a w rzeczywistości wiele modeli, które nie wyglądają jak probabilistyczne (na przykład SVM), można ponownie zrozumieć w kontekście probabilistycznym i są one w rzeczywistości maksymalizacjami prawdopodobieństw.P.
Twoja funkcja prawdopodobieństwa (4) składa się z dwóch części: iloczynu prawdopodobieństwa sukcesu tylko dla osób w próbie, które odniosły sukces, oraz iloczynu prawdopodobieństwa niepowodzenia tylko dla tych osób w próbie, które doświadczyły niepowodzenia. Biorąc pod uwagę, że każda osoba doświadcza sukcesu lub porażki, ale nie obu, prawdopodobieństwo pojawi się dla każdej osoby tylko raz. To właśnie oznacza i na dole znaków produktu., y i = 0,yi=1 ,yi=0
Współczynniki są uwzględnione w funkcji prawdopodobieństwa przez podstawienie (1) w (4). W ten sposób funkcja prawdopodobieństwa staje się funkcją . Celem maksymalnego prawdopodobieństwa jest znalezienie , która zmaksymalizuje prawdopodobieństwo.ωω ω
źródło