„Szacowanie gęstości jądra” jest splotem czego?

25

Próbuję lepiej zrozumieć szacowanie gęstości jądra.

Korzystanie z definicji z Wikipedii: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition

fah^(x)=1nja=1nK.h(x-xja)=1nhja=1nK.(x-xjah)

Weźmy być funkcją prostokątną, co daje , jeżeli wynosi między a i inaczej, a (wielkość okna) jest 1.1 x - 0,5 0,5 0 godzK.()1x-0,50,50h

Rozumiem, że gęstość jest splotem dwóch funkcji, ale nie jestem pewien, czy wiem, jak zdefiniować te dwie funkcje. Jeden z nich powinien (prawdopodobnie) być funkcją danych, która dla każdego punktu w R mówi nam, ile punktów danych mamy w tej lokalizacji (głównie 0 ). Inną funkcją powinna być prawdopodobnie modyfikacja funkcji jądra w połączeniu z rozmiarem okna. Ale nie jestem pewien, jak to zdefiniować.

Jakieś sugestie?

Poniżej znajduje się przykładowy kod R, który (podejrzewam) replikuje ustawienia, które zdefiniowałem powyżej (z mieszaniną dwóch Gaussów i n=100 ), na których mam nadzieję zobaczyć „dowód”, że funkcje, które należy zawrzeć, są takie, jak podejrzewamy .

# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)

wprowadź opis zdjęcia tutaj

Tal Galili
źródło
3
Dywan na dole daje trochę szorstkiej intuicji. Wyobraź sobie, że każda wartość od i = 1 do n jest skokiem z powiązaną wagą 1 / n . Teraz posmaruj każdy kolec przy użyciu kształtu i szerokości jądra, aby kolec został przekształcony w taki sam kształt i szerokość, przy wysokości takiej, że obszar poniżej wynosi 1 / n . Dodaj wyniki, a uzyskasz oszacowanie gęstości jądra. xjaja=1n1/n1/n
Nick Cox
Cześć Nick, dziękuję za komentarz. Tak daleko w intuicji, którą już mam, to formalne przekształcenie jej w formę splotu, którą byłem ciekawy zobaczyć :) (chętnie przejdę teraz odpowiedź Whubera!)
Tal Galili

Odpowiedzi:

27

Odpowiadająca dowolnej partii danych X=(x1,x2),,xn) jest jej „funkcją gęstości empirycznej”

faX(x)=1nja=1nδ(x-xja).

Tutaj δ jest „funkcją uogólnioną”. Mimo tej nazwy nie jest to wcale funkcja: jest to nowy obiekt matematyczny, którego można używać tylko w całkach. Jego właściwością definiującą jest to, że dla dowolnej funkcji sol kompaktowego wsparcia, które jest ciągłe w sąsiedztwie 0 ,

Rδ(x)sol(x)rex=sol(0).

(Nazwy dla δ obejmują miarę „atomową” lub „punktową” i „ funkcję delta Diraca .” W poniższym obliczeniu pojęcie to zostało rozszerzone o funkcje sol które są ciągłe tylko z jednej strony.)

Uzasadnieniem tej charakterystyki faX jest spostrzeżenie, że

xfX(y)dy=x1ni=1nδ(yxi)dy=1ni=1nxδ(yxi)dy=1ni=1nRI(yx)δ(yxi)dy=1ni=1nI(xix)=FX(x)

faXja10RjaX

faX(x)k

(faXk)(x)=RfaX(x-y)k(y)rey=R1nja=1nδ(x-y-xja)k(y)rey=1nja=1nRδ(x-y-xja)k(y)rey=1nja=1nk(xja-x).

k(x)=K.h(-x)K.h(x)

Whuber
źródło
1
W dwu wymiarów wyjaśnione jest (w bardziej potocznej) i zilustrowane na stronie GIS w gis.stackexchange.com/questions/14374/... .
whuber
1
Drogi Whuberze, właśnie przeszedłem i z radością przeczytałem twoją odpowiedź! Bardzo dziękuję za wyjaśnienie i szczegóły, twoje odpowiedzi (ta i inne w ogóle) są naprawdę inspirujące. Pozdrawiam, Tal
Tal Galili
1
δsol,xjasol(xja).
1
@whuber Dziękuję. Zdanie Uogólniona funkcja δ wcale nie jest funkcją: jest to nowy obiekt matematyczny, którego można używać tylko w całkach. uczyniło to jaśniejszym. w punkcie jak zawsze. ;)
Jan Vainer
1
@Jan Dziękuję za pomoc: włączyłem ten pomysł do tej odpowiedzi.
whuber