W Bishop's Pattern Recognition and Machine Learning przeczytałem, co następuje, zaraz po wprowadzeniu gęstości prawdopodobieństwa :
Przy nieliniowej zmianie zmiennej gęstość prawdopodobieństwa przekształca się inaczej niż prosta funkcja, ze względu na czynnik jakobowski. Na przykład, jeśli weźmiemy pod uwagę zmianę zmiennych , wówczas funkcja staje się . Rozważmy teraz gęstość prawdopodobieństwa która odpowiada gęstości w odniesieniu do nowej zmiennej , gdzie wystarczające są oznaczenia faktu, że i mają różne gęstości. Obserwacje mieszczące się w zakresie , dla małych wartości , zostaną przekształcone w zakres ) gdzie , a zatem .
Co to jest czynnik jakobowski i co dokładnie oznacza wszystko (może jakościowo)? Bishop mówi, że konsekwencją tej właściwości jest to, że pojęcie maksymalnej gęstości prawdopodobieństwa zależy od wyboru zmiennej. Co to znaczy?
Dla mnie to wszystko jest trochę niespodziewane (biorąc pod uwagę, że jest to rozdział wprowadzający). Byłbym wdzięczny za wskazówki, dzięki!
Odpowiedzi:
Sugeruję przeczytanie rozwiązania pytania 1.4, które zapewnia dobrą intuicję.
W skrócie, jeśli masz dowolną funkcję i dwie zmienne i które są powiązane ze sobą funkcją , to możesz znaleźć maksimum funkcji albo bezpośrednio analizując : lub przekształcona funkcja : . Nic dziwnego, że i będą powiązane z każdym jako (tutaj założyłem, że .x R x = g ( y ) f ( x ) x = R g m x x ( F ( x ) )f(x) x y x=g(y) f(x) x^=argmaxx(f(x)) f(g(y)) y^=argmaxy(f(g(y)) x^ y^ x^=g(y^) ∀y:g′(y)≠0)
Nie dotyczy to rozkładów prawdopodobieństwa. Jeśli masz rozkład prawdopodobieństwa i dwie losowe zmienne, które są powiązane ze sobą przez . Wtedy nie ma bezpośredniej zależności między i . Dzieje się tak ze względu na czynnik jakobowski, czynnik pokazujący, w jaki sposób objętość jest względnie zmieniana przez funkcję taką jak .x = g ( y ) x = R g m x x ( s x ( x ) ) y = R g m x y ( p r ( y ) ), g ( . )px(x) x=g(y) x^=argmaxx(px(x)) y^=argmaxy(py(y)) g(.)
źródło