W kursie uczenia maszynowego Andrew Nga używa tej formuły:
i robi szybki dowód, który pokazano poniżej:
Dowód wydaje się bardzo gęsty bez żadnych komentarzy i mam problem z jego zrozumieniem. Co dokładnie wydarzyło się od drugiej do trzeciej równości?
machine-learning
matrix
derivative
MoneyBall
źródło
źródło
Odpowiedzi:
Istnieje subtelne, ale ciężkie nadużycie zapisu, które powoduje, że wiele kroków jest mylących. Zajmijmy się tym problemem, wracając do definicji mnożenia macierzy, transpozycji, śladów i pochodnych. Dla tych, którzy chcą pominąć wyjaśnienia, wystarczy przejść do ostatniej części „Składanie wszystkiego razem”, aby zobaczyć, jak krótka i prosta może być rygorystyczna demonstracja.
Notacja i pojęcia
Wymiary
Aby wyrażenie miała sens, gdy jest macierzą , musi być macierzą (kwadratową) , a musi być macierzą , skąd iloczynem jest macierz. Aby pobrać ślad (który jest sumą elementów ukośnych, nazwa ), a następnie , czyniąc kwadratową macierzą.A m × n B n × n C m × p m × p Tr ( X ) = ∑ i X i i p = m CABA′C A m×n B n×n C m×p m×p Tr(X)=∑iXii p=m C
Pochodne
Oznaczenie „ ” pojawia się w odniesieniu do pochodnej wyrażenia względem . Zwykle, różnicowanie jest to operacja wykonywana w funkcji . Pochodna w punkcie jest przekształcenie liniowe . Po wybraniu zasad dla tych przestrzeni wektorowych transformacja taka może być reprezentowana jako macierz Nie o to chodzi w tym przypadku! A f : R N → R M x ∈ R N D f ( x ) : R N → R M M × N∇A A f:RN→RM x∈RN Df(x):RN→RM M×N
Macierze jako wektory
Zamiast tego jest uważany za element : jego współczynniki są rozwijane (zwykle albo rząd po rzędzie lub kolumna po kolumnie) do wektora o długości . Funkcja ma rzeczywiste wartości, skąd . W związku z tym musi być macierzą : to wektor wiersza reprezentujący formę liniową na . Jednak obliczenia w pytaniu wykorzystują inny sposób reprezentowania form liniowych: ich współczynniki są zwijane z powrotem do macierzy .R m n N = m n f ( A ) = Tr ( A B A ′ C ) M = 1 D f ( x ) 1 × m n R m n m × nA Rmn N=mn f(A)=Tr(ABA′C) M=1 Df(x) 1×mn Rmn m×n
Ślad jako forma liniowa
Niech będzie stałą macierzy. Następnie, z definicji śladu i mnożenia macierzy,m × nω m×n
Wyraża to najbardziej ogólną możliwą kombinację liniową współczynników : jest macierzą o tym samym kształcie co a jej współczynnik w rzędzie i kolumnie jest współczynnikiem w kombinacji liniowej. Ponieważ , role i mogą się zmieniać, dając równoważne wyrażenieω A i j A i j ω i j A i j = A i j ω i j ω AA ω A i j Aij ωijAij=Aijωij ω A
Poprzez identyfikację stałej macierzy pomocą jednej z funkcji nazwa lub , możemy reprezentować liniowy formuje się na przestrzeni macierzy jako macierzy. (Nie myl ich z pochodnymi funkcji z do !)A → Tr ( A ω ′ ) A → Tr ( ω A ′ ) m × n m × n R n R mω A→Tr(Aω′) A→Tr(ωA′) m×n m×n Rn Rm
Obliczanie pochodnej
Definicja
Pochodne wielu funkcji macierzowych spotykanych w statystykach można najłatwiej i rzetelnie obliczyć z definicji: tak naprawdę nie trzeba uciekać się do skomplikowanych reguł różnicowania macierzy. Definicja ta mówi, że jest różniczkowalna dla wtedy i tylko wtedy, gdy istnieje transformacja liniowa taka, żex L.f x L
na dowolnie małe przemieszczenia . Notacja little-oh oznacza, że błąd popełniony w przybliżeniu różnicy przez jest arbitralnie mniejszy niż rozmiar dla wystarczająco małego . W szczególności zawsze możemy ignorować błędy, które są proporcjonalne do .h∈RN f(x+h)−f(x) Lh h h |h|2
Kalkulacja
Zastosujmy definicję do omawianej funkcji. Pomnożenie, rozwinięcie i zignorowanie terminu z iloczynem dwóch ,h
Aby zidentyfikować pochodną , musimy wprowadzić ją do postaci . Pierwszy składnik po prawej stronie znajduje się już w tej postaci z . Drugi termin po prawej stronie ma postać nazwa dla . Napiszmy to:L=Df(A) (1) ω=BA′C Tr(Xh′C) X=AB
Przywołując , można przepisaćX=AB (2)
W tym sensie możemy uznać pochodną w za ponieważ te macierze grają role we wzorach śledzenia .f A
Kładąc wszystko razem
Oto kompletne rozwiązanie.
Ponieważ zajmuje to tylko około połowy pracy i obejmuje tylko najbardziej podstawowe manipulacje macierzami i śladami (mnożenie i transpozycja), należy to uznać za prostszą - i prawdopodobnie bardziej widoczną - demonstrację wyniku. Jeśli naprawdę chcesz zrozumieć poszczególne etapy oryginalnej demonstracji, może okazać się owocne porównanie ich z przedstawionymi tutaj obliczeniami.
źródło