Powiedzmy, że mam wielowymiarową normalną gęstość . Chcę uzyskać drugą (częściową) pochodną wrt . Nie wiem, jak pobrać pochodną macierzy.
Wiki mówi, że weź pochodną element po elemencie do matrycy.
Pracuję z aproksymacją Laplace'a Tryb to .Θ = μ
Dostałem jak do tego doszło?
Co zrobiłem:
Więc biorę pochodną wrt do , po pierwsze, jest transpozycja, po drugie, jest to macierz. Więc utknąłem.
Uwaga: jeśli mój profesor się z tym spotka, mam na myśli wykład.
self-study
normal-distribution
matrix
użytkownik1061210
źródło
źródło
Odpowiedzi:
W rozdziale 2 Matrix Cookbook znajduje się niezły przegląd rachunku macierzy, który daje wiele przydatnych tożsamości, które pomagają w rozwiązywaniu problemów związanych z prawdopodobieństwem i statystykami, w tym regułami, które pomagają rozróżnić wielowymiarowe prawdopodobieństwo Gaussa.
Jeśli masz losowy wektor który jest wielowymiarowy normalny ze średnim wektorem i macierzą kowariancji , użyj równania (86) w książce kucharskiej macierzy, aby ustalić, że gradient prawdopodobieństwo dziennika w odniesieniu do wynosiμ Σ L μy μ Σ L μ
Pozostawiam tobie, abyś to ponownie rozróżniał i znalazł odpowiedź na: .−Σ−1
Jako „dodatkowy kredyt” użyj równań (57) i (61), aby stwierdzić, że gradient względem wynosiΣ
Pominąłem wiele kroków, ale wykonałem to wyprowadzenie, używając tylko tożsamości znalezionych w macierzowej książce kucharskiej, więc zostawię to tobie, aby wypełnić luki.
Użyłem tych równań punktowych do oszacowania maksymalnego prawdopodobieństwa, więc wiem, że są poprawne :)
źródło
Musisz upewnić się, że odpowiednio zajmujesz się powtarzającymi się elementami w , w przeciwnym razie twoje pochodne będą niepoprawne. Na przykład (141) Matrix Cookbook podaje dla symetrycznego następujące pochodneΣΣ Σ
I (14) Zróżnicowanie funkcji macierzy kowariancji daje
gdzie oznacza produkt Hadmarda i dla wygody zdefiniowaliśmy .∘ x:=y−μ
Zwróć uwagę, że nie jest to to samo, co gdy nie jest narzucona symetryczność . W rezultacie mamy toΣ
gdzie oznacza wymiar , i oraz pochodnąwynosi 0D x y μ Dlog|2π|
Zapewnia to, że element elementu odpowiada .i,jth ∂L∂Σ ∂L∂Σij
źródło
Próbowałem komputerowo zweryfikować odpowiedź @ Macro, ale znalazłem drobny błąd w rozwiązaniu kowariancji. Uzyskał Jednak wydaje się, że poprawne rozwiązanie to w rzeczywistości Poniższy skrypt R stanowi prosty przykład, w którym różnicę skończoną oblicza się dla każdego elementu . To pokazuje, żeB=2A-diag(A)ΣAB
źródło