Stosunek prawdopodobieństw do stosunku plików PDF

12

Korzystam z Bayesa, aby rozwiązać problem klastrowania. Po kilku obliczeniach kończę z koniecznością uzyskania stosunku dwóch prawdopodobieństw:

P(A)/P(B)

być w stanie uzyskać . Te prawdopodobieństwa są uzyskiwane przez integrację dwóch różnych wielowymiarowych KDE 2D, jak wyjaśniono w tej odpowiedzi :P(H|D)

P(A)=x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdy
P(B)=x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdy

gdzie f^(x,y) i g^(x,y) to KDE, a integracja jest wykonywana dla wszystkich punktów poniżej progów f^(ra,sa) i g^(rb,sb) . Oba KDE używają jądra Gaussa . Reprezentatywny obraz KDE podobny do tych, nad którymi pracuję, można zobaczyć tutaj: Integrowanie estymatora gęstości jądra w 2D .

Obliczam KDE za pomocą pythonfunkcji stats.gaussian_kde , więc przyjmuję dla niego następującą ogólną formę:

KDE(x,y)=1ni=1n12h2e(xxi)2+(yyi)22h2

gdzie njest długość mojego szeregu punktów i hużywana przepustowość.

Całki powyżej są obliczane przy użyciu procesu Monte Carlo, który jest dość drogi obliczeniowo. Czytałem gdzieś (zapomniałem gdzie, przepraszam), że w takich przypadkach można zastąpić stosunek prawdopodobieństwa przez stosunek plików PDF (KDE) ocenianych w punktach progowych, aby uzyskać równie ważne wyniki. Interesuje mnie to, ponieważ obliczanie współczynnika KDE jest o rząd wielkości szybsze niż obliczanie stosunku całek za pomocą MC.

Pytanie sprowadza się zatem do ważności tego wyrażenia:

P(A)P(B)=f^(ra,sa)g^(rb,sb)

W jakich okolicznościach, jeśli w ogóle, czy mogę powiedzieć, że ta relacja jest prawdziwa?

[naprawiona literówka (EDYCJA)]


Dodaj :

Oto w zasadzie to samo pytanie, ale w bardziej matematycznej formie.

Gabriel
źródło
1
Zauważ, że istnienie odpowiedniego jest zapewnione przez twierdzenie o wartości średniej dla całek. ra,b,sa,b
Dave
1
Uważam, że współczynnik Millsa może być istotny.
whuber
@ gdy ten stosunek najwyraźniej wymaga znajomości, której wartości P(X)próbuję obliczyć. Czy możesz rozwinąć nieco znaczenie tego parametru?
Gabriel

Odpowiedzi:

3

KDE to mieszanka rozkładów normalnych. Spójrzmy na jeden z nich.

Definicje i pokazują, że ich wartości są niezmienne przy tłumaczeniach i skalowaniu w płaszczyźnie, więc wystarczy wziąć pod uwagę standardowy rozkład normalny z PDF . NierównośćP(A)P(B)f

f(x,y)f(r,s)

jest równa

x2+y2r2+s2.

Wprowadzenie współrzędnych biegunowych umożliwia przepisanie całkiρ,θ

P(r,s)=12π02πr2+s2ρexp(ρ2/2)dρdθ=exp((r2+s2)/2)=2πf(r,s).

Teraz rozważ mieszaninę. Ponieważ jest liniowy,

P(r,s)=1ni2πf((rxi)/h,(syi)/h)=2πh2(1ni1h2f((rxi)/h,(syi)/h))=2πh2KDE(r,s).

Rzeczywiście, i są proporcjonalne. Stała proporcjonalności wynosi .fP2πh2


To, że taki stosunek proporcjonalności między i jest szczególny,Pf można docenić, rozważając prosty kontrprzykład. Niech ma równomierny rozkład na mierzalnym zbiorze pola powierzchni, a ma jednolity rozkład na mierzalnym zbiorze który jest rozłączny od i ma obszar . Następnie mieszanina z PDF ma stałą wartość na , na , a gdzie indziej wynosi zero. Istnieją trzy przypadki do rozważenia:f1A1f2A2A1μ>1f=f1/2+f2/21/2A11/(2μ)A2

  1. (r,s)A1 . Tutaj osiąga maksimum, skąd . Stosunek .f(r,s)=1/2P(r,s)=1f(r,s)/P(r,s)=1/2

  2. (r,s)A2 . Tutaj jest ściśle mniejsze niż ale większe niż . Zatem region integracji jest dopełnieniem a wynikowa całka musi wynosić . Stosunek .f(r,s)1/20A11/2f(r,s)/P(r,s)=(1/(2μ))/(1/2)=1/μ

  3. Gdzie indziej wynosi zero, a całka wynosi zero.fP

Najwyraźniej stosunek (jeśli jest zdefiniowany) nie jest stały i waha się między a . Chociaż ten rozkład nie jest ciągły, można to zrobić, dodając do niego rozkład normalny . Zmniejszając obie wartości własne , zmieni to bardzo niewiele rozkład i da jakościowo te same wyniki - dopiero teraz wartości współczynnika będą zawierać wszystkie liczby z przedziału .11/μ1(0,Σ)Σf/P[1,1/μ]


Ten wynik również nie uogólnia na inne wymiary. Zasadniczo takie same obliczenia, które rozpoczęły tę odpowiedź, pokazują, że jest niepełną funkcją gamma i że wyraźnie nie jest tym samym co . To, że dwa wymiary są wyjątkowe, można zauważyć, zauważając, że całkowanie w dotyczy zasadniczo odległości, a gdy są one rozkładem normalnym, funkcja odległości ma - który jest rozkładem wykładniczym. Funkcja wykładnicza jest wyjątkowa, ponieważ jest proporcjonalna do własnej pochodnej - stąd całka i całka muszą być proporcjonalne.PfPχ2(2)fP

Whuber
źródło
To jest niesamowicie odpowiedzialny fan, dziękuję bardzo. Zajmie mi trochę czasu, aby w pełni przetworzyć wszystko, co tu napisałeś, ale całkowicie ufam twoim obliczeniom, co oznacza, że ​​oznaczyłem pytanie jako rozwiązane. Twoje zdrowie.
Gabriel