Robię kurs Machine Learning Stanford na Coursera.
W rozdziale dotyczącym regresji logistycznej funkcja kosztu jest następująca:
Próbowałem uzyskać pochodną funkcji kosztu, ale dostałem coś zupełnie innego.
Jak otrzymuje się pochodną?
Jakie są kroki pośrednie?
regression
logistic
gradient-descent
derivative
oktawski
źródło
źródło
Odpowiedzi:
Na podstawie notatek z kursu, które nie są dostępne (w tym to wyprowadzenie) poza notatkami wniesionymi przez studentów na stronie kursu Coursera Machine Learning Andrew Ng .
W dalszej części indeks górny oznacza poszczególne pomiary lub „przykłady” treningu.(i)
Pochodną funkcji sigmoidalnej jest
źródło
Aby uniknąć wrażenia nadmiernej złożoności materii, spójrzmy tylko na strukturę rozwiązania.
Z uproszczeniem i pewnym nadużyciem notacji, niech będzie terminem w sumie , a jest funkcją :G(θ) J(θ) h=1/(1+e−z) z(θ)=xθ
Możemy użyć zasadę łańcucha: i rozwiązać jeden po one ( i są stałe).dGdθ=dGdhdhdzdzdθ x y
Na koniec .dzdθ=x
Łączenie wyników razem daje poszukiwane wyrażenie: Nadzieja, która pomaga.
źródło
Podziękowania dla tej odpowiedzi należą się Antoniemu Parelladzie z komentarzy, które moim zdaniem zasługują na bardziej znaczące miejsce na tej stronie (ponieważ pomogło mi to, gdy wiele innych odpowiedzi tego nie zrobiło). Ponadto, nie jest to pełne wyprowadzenie, ale bardziej wyraźne stwierdzenie . (Aby uzyskać pełne wyprowadzenie, zobacz inne odpowiedzi).∂J(θ)∂θ
gdzie
Ponadto implementacja w języku Python dla tych, którzy chcą obliczyć gradient w odniesieniu do .J θ
źródło
Dla tych z nas, którzy nie są tak silni w rachunku różniczkowym, ale chcieliby bawić się dostosowując funkcję kosztów i muszą znaleźć sposób na obliczenie pochodnych ... skrót do rachunku ponownego uczenia się to narzędzie online do automatycznego zapewniania wyprowadzenie, wraz z objaśnieniami krok po kroku reguły.
https://www.derivative-calculator.net
źródło