To pytanie wynika z dyskusji w innym miejscu .
Zmienne jądra są często używane w regresji lokalnej. Na przykład, less jest szeroko stosowany i działa dobrze jako wygładzacz regresji, i jest oparty na jądrze o zmiennej szerokości, która dostosowuje się do rzadkości danych.
Z drugiej strony zwykle uważa się, że zmienne jądra prowadzą do złych estymatorów w szacowaniu gęstości jądra (patrz Terrell i Scott, 1992 ).
Czy istnieje intuicyjny powód, dla którego dobrze sprawdzałyby się w regresji, ale nie w szacowaniu gęstości?
nonparametric
smoothing
kernel-smoothing
loess
Rob Hyndman
źródło
źródło
Odpowiedzi:
Wydaje się, że są tutaj dwa różne pytania, które spróbuję podzielić:
1) w jaki sposób KS, wygładzanie jądra różni się od KDE, szacowanie gęstości jądra? Powiedzmy, że mam estymator / wygładzacz / interpolator
a także zdarza się, że poznajemy „rzeczywistą” gęstość f () na xi. Następnie uruchomienie
est( x, densityf )
musi dać oszacowanie gęstościf (): KDE. Być może KS i KDE są oceniane inaczej - różne kryteria gładkości, różne normy - ale nie widzę zasadniczej różnicy. Czego mi brakuje ?2) W jaki sposób wymiar wpływa na oszacowanie lub wygładzenie, intuicyjnie ? Oto zabawkowy przykład, aby pomóc intuicji. Rozważ pudełko N = 10000 punktów w jednolitej siatce oraz okno, linię, kwadrat lub sześcian o W = 64 punktów w nim:
W tym przypadku „stosunek boków” jest bokiem okna / bokiem okna, a „odległość do wygranej” jest przybliżonym oszacowaniem średniej odległości losowego punktu w pudełku do losowo umieszczonego okna.
Czy to w ogóle ma sens? (Zdjęcie lub aplet naprawdę by pomogły: ktoś?)
Chodzi o to, że okno o stałym rozmiarze w pudełku o stałym rozmiarze ma bardzo różną bliskość do reszty pudełka, w 1d 2d 3d 4d. To jest dla jednolitej siatki; może silna zależność od wymiaru przenosi się na inne rozkłady, a może nie. W każdym razie wygląda to na silny ogólny efekt, aspekt przekleństwa wymiarowości.
źródło
Oszacowanie gęstości jądra oznacza integrację w oknie lokalnym (rozmytym), a wygładzanie jądra oznacza uśrednienie w oknie lokalnym (rozmytym).
Wygładzanie jądra:y~( x ) ∝ 1ρ ( x )∑ K.( | | x - xja| | )yja .
Oszacowanie gęstości jądra:ρ ( x ) ∝ ∑ K( | | x - xja| | ) .
Jak one są takie same?
Weźmy pod uwagę próbki funkcji o wartości logicznej, tj. Zestaw zawierający zarówno „próbki prawdziwe” (każda z wartością jednostkową), jak i „próbki fałszywe” (każda z wartością zerową). Zakładając, że ogólna gęstość próbki jest stała (jak siatka), lokalna średnia tej funkcji jest identycznie proporcjonalna do lokalnej (częściowej) gęstości podzbioru o prawdziwej wartości. (Fałszywe próbki pozwalają nam na ciągłe ignorowanie mianownika równania wygładzającego, dodając jednocześnie sumę zerową, aby uprościć równanie szacowania gęstości).
Podobnie, jeśli twoje próbki były reprezentowane jako rzadkie elementy na logicznym rastrze, możesz oszacować ich gęstość, stosując filtr rozmycia do rastra.
Czym się różnią?
Intuicyjnie można oczekiwać, że wybór algorytmu wygładzania będzie zależał od tego, czy pomiary próbki zawierają znaczny błąd pomiaru.
Na jednym krańcu (brak hałasu) wystarczy interpolować między dokładnie znanymi wartościami w przykładowych lokalizacjach. Powiedzmy, przez triangulację Delaunaya (z interpolacją cząstkową dwuliniową).
Oszacowanie gęstości przypomina przeciwną skrajność, jest to całkowicie szum, ponieważ próbce w izolacji nie towarzyszy pomiar wartości gęstości w tym punkcie. (Więc nie ma po prostu interpolować. Możesz rozważyć pomiar obszarów komórek diagramu Voronoi, ale wygładzanie / odszumienie nadal będzie ważne ..)
Chodzi o to, że pomimo podobieństwa są to zasadniczo różne problemy, więc różne podejścia mogą być optymalne.
źródło