Mam trudności z wyprowadzeniem Hesji funkcji celu, , w regresji logistycznej, gdzie wynosi:
to funkcja logistyczna. Hessian to . Próbowałem to wyliczyć, obliczając , ale wtedy nie było dla mnie oczywiste, jak dostać się do notacji macierzowej z .
Czy ktoś zna jakiś czysty i łatwy sposób na uzyskanie ?
Odpowiedzi:
Tutaj czerpię wszystkie niezbędne właściwości i tożsamości, aby rozwiązanie było samodzielne, ale oprócz tego wyprowadzenie jest czyste i łatwe. Sformalizujmy naszą notację i napiszmy nieco funkcję zwartości. Rozważmy próbki takie, że i . Przypomnijmy, że w binarnej regresji logistycznej zwykle mamy funkcję hipotezy jest funkcją logistyczną. Formalniem {xi,yi} xi∈Rd yi∈R hθ
gdzie oraz . Funkcja straty (która moim zdaniem OP nie ma znaku ujemnego) jest następnie definiowana jako:ω∈Rd zi=ωTxi
Istnieją dwie ważne właściwości funkcji logistycznej, które wyprowadzam tutaj na przyszłość. Najpierw zauważ, że .1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z)
Zauważ też, że
Zamiast podejmować pochodnych w odniesieniu do komponentów, tutaj będziemy pracować bezpośrednio z wektorami (można przejrzeć pochodne wektorami tutaj ). Hessian funkcji straty jest podany przez , ale najpierw pamiętaj, że i .l(ω) ∇⃗ 2l(ω) ∂z∂ω=xTω∂ω=xT ∂z∂ωT=∂ωTx∂ωT=x
Niech . Wykorzystując powyższe właściwości i regułę łańcuchali(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi))
Teraz jest to banalne
uff!
Naszym ostatnim krokiem jest obliczenie Hesji
Dla próbek mamy . Jest to równoważne konkatenację wektorów kolumny do macierzy o rozmiarze , tak że . Terminy skalarne są łączone w macierz diagonalną tak że . Wreszcie dochodzimy do wnioskum ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)) xi∈Rd X d×m ∑mi=1xixTi=XXT D Dii=σ(zi)(1−σ(zi))
Szybsze podejście można uzyskać, biorąc pod uwagę wszystkie próbki od początku i zamiast tego pracować z pochodnymi macierzowymi. Dodatkowo, w tym sformułowaniu banalne jest wykazanie, że jest wypukły. Niech będzie dowolnym wektorem takim, że . Następniel(ω) δ δ∈Rd
od i . To implikuje, że jest dodatnio-pół-skończony, a zatem jest wypukły (ale nie silnie wypukły).D>0 ∥δTX∥≥0 H l
źródło