Specjalny rozkład prawdopodobieństwa

12

Jeśli jest rozkładem prawdopodobieństwa z niezerowymi wartościami na , dla jakiego typu (typów) istnieje stała taka, że dla wszystkich ?p(x)[0,+)p(x)c>00p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ20<ϵ<1

Powyższa nierówność jest w rzeczywistości rozbieżnością Kullbacka-Leiblera między rozkładem a jego skompresowaną wersją . Dowiedziałem się, że ta nierówność dotyczy rozkładów wykładniczych, gamma i Weibulla i jestem ciekawy, czy to działa dla większej klasy rozkładów prawdopodobieństwa.( 1 + ϵ ) p ( x ( 1 + ϵ ) )p(x)(1+ϵ)p(x(1+ϵ))

Masz pojęcie, co oznacza ta nierówność?

Sus20200
źródło
3
Ponieważ ma wartość dodatnią, byłby skompresowany (w kierunku x), a nie rozciągnięty. ϵ
Glen_b
2
To pytanie jest dwuznaczne: jakie są twoje kwantyfikatory? Czy chcesz zachować tę nierówność dla wszystkich , przynajmniej jednego , czy czegoś innego? Jest dany a priori czy masz na myśli nie powinno istnieć co najmniej jedną taką wartość z ? A skoro wspominasz o klasach rozkładów prawdopodobieństwa, przez „ ” masz na myśli jeden konkretny rozkład, czy może masz na myśli ich parametryczną rodzinę? ϵ c c p ( x )ϵ ϵccp(x)
whuber
2
@whuber Dzięki za komentarze. Poprawiłem opis problemu, aby wyjaśnić wspomniane problemy. Mam na myśli, dla jakiego powyższa nierówność ma miejsce? Odpowiedzią może być albo wprowadzenie parametrycznej rodziny rozkładów, albo zaproponowanie równania różniczkowego dla które wystarcza i daje pożądaną nierówność. p ( x )p(x)p(x)
Sus20200,
2
Czy ta nierówność nie działałaby dla żadnego p (x), który jest ciągły i ma nieskończone wsparcie? Obliczasz dywergencję KL w rodzinie parametrycznej ( . Jeśli KL jest podatny na różniczkowanie na poziomie 0, to jego pochodna wynosi 0. Biorąc za maksimum krzywizny KL (dla ) mamy granicę. Przy dodatkowej pracy może być możliwe związanie C z właściwości pC ϵ [ 0 , 1 ]ϵp(x(1+ϵ))Cϵ[0,1]
Guillaume Dehaene,
1
Może to być nieskończoność, o ile . Pierwszym rozszerzeniem KL jestL=limx0p(x)x=0Lϵ+O(ϵ2)
Arthur B.,

Odpowiedzi:

4

Czynności wstępne

pisać

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

Logarytmy i związek między i sugerują wyrażanie zarówno jak i jego argumentu jako wykładników. W tym celu zdefiniujp(x)p(x(1+ϵ))p

q(y)=log(p(ey))

dla wszystkich rzeczywistych dla których zdefiniowano prawą stronę i są równe gdziekolwiek . Zauważ, że zmiana zmiennych pociąga za sobą i (przyjmując za gęstość rozkładu), że prawo prawdopodobieństwa całkowitego można w ten sposób wyrazić jakoyp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

Załóżmy gdy . eq(y)+y0y± Wyklucza to rozkłady prawdopodobieństwa z nieskończenie wieloma skokami gęstości w pobliżu lub . W szczególności, jeśli ogony są ostatecznie monotoniczne, implikuje to założenie, pokazując, że nie jest ono poważne.p0p(1)

Aby ułatwić pracę z logarytmami, również to zauważ

1+ϵ=eϵ+O(ϵ2).

Ponieważ następujące obliczenia zostaną wykonane do wielokrotności , zdefiniujϵ2

δ=log(1+ϵ).

Równie dobrze możemy zastąpić przez , z odpowiadającym i dodatnią odpowiadającą dodatniej .1+ϵeδδ=0ϵ=0δϵ

Analiza

Jednym oczywistym sposobem, w jaki nierówność może się nie powieść, byłoby całki na część . Stałoby się tak, gdyby na przykład istniała dowolny właściwy przedział liczb dodatnich, bez względu na to, jak mały, w którym były identycznie zerowe, ale nie były zerowe w przedziale . nieskończone z prawdopodobieństwem dodatnim.Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]

Ponieważ pytanie jest nieokreślone dotyczące natury , moglibyśmy ugrzęznąć w kwestiach technicznych dotyczących tego, jak gładkie może być . Unikajmy takich problemów, wciąż mając nadzieję na uzyskanie wglądu, zakładając, że wszędzie ma tyle pochodnych, ile chcielibyśmy użyć. (Dwa będą wystarczające, jeśli jest ciągłe.) Ponieważ to gwarantuje, że pozostaje ograniczone w każdym ograniczonym zestawie, oznacza to, że nigdy nie jest równe zero, gdy .ppqqqp(x)x>0

Zauważ, że pytanie naprawdę dotyczy zachowania gdy zbliża się do zera z góry. Ponieważ ta całka jest funkcją ciągłą w przedziale , osiąga pewne maksymalne gdy jest ograniczone do dowolnego przedziału dodatniego , co pozwala nam wybrać , ponieważ oczywiścieIp(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

sprawia, że ​​nierówność działa. Właśnie dlatego musimy zajmować się tylko obliczeniami modulo .ϵ2

Rozwiązanie

Korzystając ze zmian zmiennej z na , z na i na , obliczmy w drugim rzędzie w (lub ) w nadziei na osiągnięcie uproszczenie. W tym celu zdefiniujxypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

być rzędem - pozostałe w rozwinięciu Taylora wokół .2qy

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

Zmiana zmiennych na w całce lewej ręki pokazuje, że musi zniknąć, jak zauważono w założeniu po . Zmiana zmiennych z powrotem na w całce z prawej strony dajeq(y)+y(1)x=ey

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

Nierówność ma miejsce (według naszych różnych technicznych założeń) wtedy i tylko wtedy, gdy współczynnik po prawej stronie jest skończony.δ2

Interpretacja

To dobry moment, aby przestać, ponieważ wydaje się, że odkrywa on zasadniczy problem: jest ograniczony kwadratową funkcją właśnie wtedy, gdy błąd kwadratowy w rozszerzeniu Taylora nie eksploduje (względem rozkładu), gdy zbliża się do .Ip(ϵ)ϵqy±

Sprawdźmy niektóre przypadki wymienione w pytaniu: rozkłady wykładnicze i gamma. (Wykładniczy jest szczególnym przypadkiem gammy.) Nigdy nie musimy się martwić parametrami skali, ponieważ zmieniają jedynie jednostki miary. Liczą się tylko parametry nieskalowane.

Tutaj, ponieważ dla , Rozwinięcie Taylora wokół dowolnego jestTwierdzenie Taylora z Remainderem sugeruje, że jest zdominowany przez dla wystarczająco małego . Ponieważ oczekiwanie na jest skończone, nierówność obowiązuje dla rozkładów gamma.p(x)=xkexk>1

q(y)=ey+kylogΓ(k+1).
y
Constant+(key)δey2δ2+.
R(log(x),δ)ey+δ/2<xδx

Podobne obliczenia sugerują nierówność dla rozkładów Weibulla, rozkładów półnormalnych, rozkładów lognormalnych itp. W rzeczywistości, aby uzyskać kontrprzykłady, musielibyśmy naruszyć co najmniej jedno założenie, zmuszając nas do spojrzenia na rozkłady, w których znika w pewnym przedziale lub nie podlega ciągłej dwukrotnej różniczkowalności lub ma nieskończenie wiele trybów. Są to łatwe testy do zastosowania do dowolnej rodziny rozkładów powszechnie stosowanych w modelowaniu statystycznym.p

Whuber
źródło