Interpretacja pochodnej Radon-Nikodym między miarami prawdopodobieństwa?

11

W niektórych momentach widziałem zastosowanie pochodnej Radona-Nikodyma jednej miary prawdopodobieństwa w stosunku do drugiej, szczególnie w dywergencji Kullbacka-Leiblera, gdzie jest to pochodna miary prawdopodobieństwa modelu dla jakiegoś dowolnego parametru w odniesieniu do rzeczywistego parametru :θ 0θθ0

dPθdPθ0

Gdzie są to oba miary prawdopodobieństwa w przestrzeni punktów danych, zależne od wartości parametru: .Pθ(D)=P(D|θ)

Jaka jest interpretacja takiej pochodnej Radon-Nikodym w rozbieżności Kullbacka-Leiblera, czy bardziej ogólnie między dwiema miarami prawdopodobieństwa?

użytkownik56834
źródło

Odpowiedzi:

12

Po pierwsze, nie potrzebujemy miar prawdopodobieństwa, tylko -finiteness. Więc jest mierzalny pole i i być -finite środki o .M = ( Ω , F ) μ ν σ MσM=(Ω,F)μνσM

Twierdzenie Radona-Nikodyma stwierdza, że ​​jeśli dla wszystkich , oznaczonych przez , to istnieje nieujemna Borel funkcja w taki sposób, dla wszystkich .A F μ ν f ν ( A ) = A fμ(A)=0ν(A)=0AFμνfA F.

ν(A)=Afdμ
AF

Oto jak lubię o tym myśleć. Po pierwsze, dla dowolnych dwóch miar na , zdefiniujmy aby oznaczać . Jest to poprawna relacja równoważności i mówimy, że i są równoważne w tym przypadku. Dlaczego jest to rozsądna równoważność środków? Miary są tylko funkcjami, ale ich domeny trudno wizualizować. Co jeśli dwie zwykłe funkcje mają tę właściwość, tj. ? Zdefiniuj i zwróć uwagę, że w dowolnym miejscu na wsparcie μ ν μ ( A ) = 0Mμνμ ν f , g : RR f ( x ) = 0μ(A)=0ν(A)=0μνf,g:RRh ( x ) = { f ( x ) / g ( x ) g ( x ) 0 π e o.w. g g H = f g g h = 0 π e = 0 = f f g h g F 0 / 0 g = 0 H π ef(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
g mamy , a poza obsługą (ponieważ współużytkują i ), więc pozwala przeskalować do . Jak wskazuje @whuber, kluczową ideą tutaj nie jest to, że jest w jakiś sposób „bezpieczne” do zrobienia lub zignorowania, ale raczej, gdy , nie ma znaczenia, co robi , więc możemy po prostu zdefiniować to dowolnie (jak być co nie ma tutaj specjalnego znaczenia) i rzeczy nadal działają. Również w tym przypadku możemy zdefiniować analogiczną funkcję pomocą , abygh=fg gh=0πe=0=ffghgf0/0g=0hπe g / f f h = ghg/ffh=g .

Następnie załóżmy, że , ale drugi kierunek niekoniecznie się utrzymuje. Oznacza to, że nasza poprzednia definicja nadal działa, ale teraz nie działa, ponieważ będzie miał rzeczywiste podziały przez . Zatem możemy przeskalować do za pomocą , ale nie możemy iść w innym kierunku, ponieważ musielibyśmy przeskalować coś na coś niezerowego.h h 0 g f g h = f 0g(x)=0f(x)=0hh0gfgh=f0

Wróćmy teraz do i i oznaczmy nasz RND przez . Jeśli , oznacza to intuicyjnie, że można przeskalować jedno na drugie i odwrotnie. Ale generalnie chcemy iść tylko w jednym kierunku (tj. Przeskalować miłą miarę, taką jak miara Lebesgue'a, na bardziej abstrakcyjną miarę), więc potrzebujemy tylko aby zrobić użyteczne rzeczy. To przeskalowanie jest sercem RND.ν f μ ν μ νμνfμνμν

Wracając do komentarza @ whuber w komentarzach, istnieje dodatkowa subtelność, dlaczego bezpiecznie zignorować kwestię . Dzieje się tak, ponieważ przy pomocy miar zawsze definiujemy rzeczy do zbioru miary więc na każdym zestawie z możemy po prostu sprawić, aby nasz RND przyjmował dowolną wartość, powiedzmy . Więc nie jest tak, że jest iskrobezpieczne, ale raczej gdziekolwiek, gdzie mielibyśmy to zestaw miar wrt dzięki czemu możemy po prostu zdefiniować nasze RND, aby było tam coś miłego bez wpływu na nic.0 μ ( ) = 0 1 0 / 0 0 / 0 0 μ0/00Aμ(A)=010/00/00μ

Jako przykład załóżmy, że dla niektórych . Następnie więc mamy to RND (można to formalnie uzasadnić twierdzeniem o zmianie miar). Jest to dobre, ponieważ dokładnie odzyskaliśmy współczynnik skalowania.k > 0 ν ( A ) = Akμ=νk>0f ( x ) = k = d ν

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

Oto drugi przykład, aby podkreślić, jak zmiana RND na zestawach miary nie ma na nie wpływu. Niech , to znaczy jest to średnia normalne PDF oraz , gdy wejście jest racjonalne i niech być RV tej gęstości. Oznacza to, że więc w rzeczywistości jest nadal standardowym gaussowskim RV. Nie wpłynęło to w żaden sposób na zmianę na ponieważ jest to zestaw miary wrtf ( x ) = φ ( x ) + 1 Q ( x ) 1 X P ( X A ) = A ( φ + 1 Q )0f(x)=φ(x)+1Q(x)1X= A φ

P(XA)=A(φ+1Q)dλ
X X Q 0 λ
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ .

W ostatnim przykładzie, załóżmy, i i pozwolić i być odpowiednio ich dystrybucji. Przypomnijmy, że pmf jest RND w odniesieniu do miary liczenia , a ponieważ ma właściwość, że , okazuje się, że Y Bin ( n , p ) P X P Y c c c ( A ) = 0XPois(η)YBin(n,p)PXPYccd P Yc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

więc możemy obliczyć

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

Dlatego, ponieważ dla wszystkich poparciu , możemy przeskalować całkowanie w odniesieniu do rozkładu Poissona w integrację w odniesieniu do rozkładu dwumianowego, chociaż ponieważ wszystko jest dyskretne, okazuje się, że jest trywialne wynik.P(X=n)>0nY


Odniosłem się do twojego bardziej ogólnego pytania, ale nie dotknąłem rozbieżności KL. Dla mnie przynajmniej rozbieżność KL jest znacznie łatwiejsza do interpretacji pod względem testowania hipotez, takich jak odpowiedź @kjetil b halvorsen tutaj . Jeśli i istnieje miara która dominuje w obu przypadkach, wówczas użyj możemy odzyskać formę z gęstością, więc dla mnie jest to łatwiejsze.PQμreP.reQ=reP./reμreQ/reμ: =p/q

jld
źródło
3
Podobało mi się to przedstawienie (ponieważ podobają mi się wszystkie wasze wypowiedzi), ale na dole wydaje się opierać na (powtarzanym) twierdzeniu, że ma jakiś sens - ale tak nie jest. W pomiarach dzieje się coś, co nie dzieje się automatycznie z funkcjami wartości rzeczywistych: możesz po prostu zignorować to, co dzieje się w zestawach miary zero. W ten sposób unikasz konieczności stosowania wartości w ustawieniu pochodnej Radon-Nikodym. 0 / 00/00/0
whuber
1
@ whuber bardzo dziękuję za komentarz, który naprawdę pomaga. Próbowałem zaktualizować, aby rozwiązać ten
problem