Korzystam z Bayesa, aby rozwiązać problem klastrowania. Po kilku obliczeniach kończę z koniecznością uzyskania stosunku dwóch prawdopodobieństw:
być w stanie uzyskać . Te prawdopodobieństwa są uzyskiwane przez integrację dwóch różnych wielowymiarowych KDE 2D, jak wyjaśniono w tej odpowiedzi :
gdzie i to KDE, a integracja jest wykonywana dla wszystkich punktów poniżej progów i . Oba KDE używają jądra Gaussa . Reprezentatywny obraz KDE podobny do tych, nad którymi pracuję, można zobaczyć tutaj: Integrowanie estymatora gęstości jądra w 2D .
Obliczam KDE za pomocą python
funkcji stats.gaussian_kde , więc przyjmuję dla niego następującą ogólną formę:
gdzie n
jest długość mojego szeregu punktów i h
używana przepustowość.
Całki powyżej są obliczane przy użyciu procesu Monte Carlo, który jest dość drogi obliczeniowo. Czytałem gdzieś (zapomniałem gdzie, przepraszam), że w takich przypadkach można zastąpić stosunek prawdopodobieństwa przez stosunek plików PDF (KDE) ocenianych w punktach progowych, aby uzyskać równie ważne wyniki. Interesuje mnie to, ponieważ obliczanie współczynnika KDE jest o rząd wielkości szybsze niż obliczanie stosunku całek za pomocą MC.
Pytanie sprowadza się zatem do ważności tego wyrażenia:
W jakich okolicznościach, jeśli w ogóle, czy mogę powiedzieć, że ta relacja jest prawdziwa?
[naprawiona literówka (EDYCJA)]
Dodaj :
Oto w zasadzie to samo pytanie, ale w bardziej matematycznej formie.
P(X)
próbuję obliczyć. Czy możesz rozwinąć nieco znaczenie tego parametru?Odpowiedzi:
KDE to mieszanka rozkładów normalnych. Spójrzmy na jeden z nich.
Definicje i pokazują, że ich wartości są niezmienne przy tłumaczeniach i skalowaniu w płaszczyźnie, więc wystarczy wziąć pod uwagę standardowy rozkład normalny z PDF . NierównośćP(A) P(B) f
jest równa
Wprowadzenie współrzędnych biegunowych umożliwia przepisanie całkiρ,θ
Teraz rozważ mieszaninę. Ponieważ jest liniowy,
Rzeczywiście, i są proporcjonalne. Stała proporcjonalności wynosi .f P 2πh2
To, że taki stosunek proporcjonalności między i jest szczególny,P f można docenić, rozważając prosty kontrprzykład. Niech ma równomierny rozkład na mierzalnym zbiorze pola powierzchni, a ma jednolity rozkład na mierzalnym zbiorze który jest rozłączny od i ma obszar . Następnie mieszanina z PDF ma stałą wartość na , na , a gdzie indziej wynosi zero. Istnieją trzy przypadki do rozważenia:f1 A1 f2 A2 A1 μ>1 f=f1/2+f2/2 1/2 A1 1/(2μ) A2
Gdzie indziej wynosi zero, a całka wynosi zero.f P
Najwyraźniej stosunek (jeśli jest zdefiniowany) nie jest stały i waha się między a . Chociaż ten rozkład nie jest ciągły, można to zrobić, dodając do niego rozkład normalny . Zmniejszając obie wartości własne , zmieni to bardzo niewiele rozkład i da jakościowo te same wyniki - dopiero teraz wartości współczynnika będą zawierać wszystkie liczby z przedziału .1 1/μ≠1 (0,Σ) Σ f/P [1,1/μ]
Ten wynik również nie uogólnia na inne wymiary. Zasadniczo takie same obliczenia, które rozpoczęły tę odpowiedź, pokazują, że jest niepełną funkcją gamma i że wyraźnie nie jest tym samym co . To, że dwa wymiary są wyjątkowe, można zauważyć, zauważając, że całkowanie w dotyczy zasadniczo odległości, a gdy są one rozkładem normalnym, funkcja odległości ma - który jest rozkładem wykładniczym. Funkcja wykładnicza jest wyjątkowa, ponieważ jest proporcjonalna do własnej pochodnej - stąd całka i całka muszą być proporcjonalne.P f P χ2(2) f P
źródło