Próbuję lepiej zrozumieć szacowanie gęstości jądra.
Korzystanie z definicji z Wikipedii: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition
Weźmy być funkcją prostokątną, co daje , jeżeli wynosi między a i inaczej, a (wielkość okna) jest 1.1 x - 0,5 0,5 0 godz
Rozumiem, że gęstość jest splotem dwóch funkcji, ale nie jestem pewien, czy wiem, jak zdefiniować te dwie funkcje. Jeden z nich powinien (prawdopodobnie) być funkcją danych, która dla każdego punktu w R mówi nam, ile punktów danych mamy w tej lokalizacji (głównie ). Inną funkcją powinna być prawdopodobnie modyfikacja funkcji jądra w połączeniu z rozmiarem okna. Ale nie jestem pewien, jak to zdefiniować.
Jakieś sugestie?
Poniżej znajduje się przykładowy kod R, który (podejrzewam) replikuje ustawienia, które zdefiniowałem powyżej (z mieszaniną dwóch Gaussów i ), na których mam nadzieję zobaczyć „dowód”, że funkcje, które należy zawrzeć, są takie, jak podejrzewamy .
# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)
źródło
Odpowiedzi:
Odpowiadająca dowolnej partii danychX= ( x1, x2), … , Xn) jest jej „funkcją gęstości empirycznej”
Tutajδ jest „funkcją uogólnioną”. Mimo tej nazwy nie jest to wcale funkcja: jest to nowy obiekt matematyczny, którego można używać tylko w całkach. Jego właściwością definiującą jest to, że dla dowolnej funkcji sol kompaktowego wsparcia, które jest ciągłe w sąsiedztwie 0 ,
(Nazwy dlaδ obejmują miarę „atomową” lub „punktową” i „ funkcję delta Diraca .” W poniższym obliczeniu pojęcie to zostało rozszerzone o funkcje g które są ciągłe tylko z jednej strony.)
Uzasadnieniem tej charakterystykifX jest spostrzeżenie, że
źródło