Jeśli zmienne szerokości jądra są często dobre dla regresji jądra, dlaczego na ogół nie są one dobre do oszacowania gęstości jądra?

17

To pytanie wynika z dyskusji w innym miejscu .

Zmienne jądra są często używane w regresji lokalnej. Na przykład, less jest szeroko stosowany i działa dobrze jako wygładzacz regresji, i jest oparty na jądrze o zmiennej szerokości, która dostosowuje się do rzadkości danych.

Z drugiej strony zwykle uważa się, że zmienne jądra prowadzą do złych estymatorów w szacowaniu gęstości jądra (patrz Terrell i Scott, 1992 ).

Czy istnieje intuicyjny powód, dla którego dobrze sprawdzałyby się w regresji, ale nie w szacowaniu gęstości?

Rob Hyndman
źródło
2
Napisałeś: „Z drugiej strony uważa się, że jądra zmienne zwykle prowadzą do słabych estymatorów w szacowaniu gęstości jądra”. Jaka część wspomnianej przez ciebie pracy sprawia, że ​​w to wierzysz? Mam wiele odniesień, które można znaleźć w innej derection, patrz na przykład odniesienia wspomniane w tym dokumencie: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf
robin girard
1
Streszczenie Terrella i Scotta pięknie to podsumowuje: „Najbliższe estymatory sąsiadów we wszystkich wersjach działają słabo w jednym i dwóch wymiarach”. Wydaje się, że mają one dużą przewagę w szacowaniu gęstości na wielu odmianach.
Rob Hyndman
3
„Najbliższy sąsiad” nie jest jedynym zmiennym jądrem. Artykuły, o których wspominam, wykorzystują inne narzędzie, takie jak algorytm Lepskiegoi. Przeczytam artykuł AOS, ale ponieważ wydajność najbliższego sąsiada powinna maleć wraz z wymiarem, stwierdziłem, że dziwne jest, że zwiększenie wymiaru daje przewagę estymatorowi „bardzo nieparametrycznemu” (jeśli przyznamy, że stała szerokość pasma jest mniej nieparametryczna niż różne pasma). W tego typu sytuacji często używany jest wynik oceny ...
Robin Girard
@Robin Girard:> * uznał za dziwne, że zwiększenie wymiaru daje przewagę estymatorze „bardzo nieparametrycznemu” (jeśli przyznamy, że stała szerokość pasma jest bardziej nieparametryczna niż zmiana szerokości pasma) * czy w tym zdaniu występuje literówka? W przeciwnym razie wydajesz się zgadzać z autorami, przynajmniej na poziomie intuicyjnym. Dzięki, aby potwierdzić / poprawić.
user603,
@kwak dzięki, że to zauważyłeś! to jest literówka: Chciałem powiedzieć, że stała przepustowość jest mniejsza NP ... Nie mogę zmodyfikować komentarza :( przepraszam za to.
Robin Girard

Odpowiedzi:

2

Wydaje się, że są tutaj dwa różne pytania, które spróbuję podzielić:

1) w jaki sposób KS, wygładzanie jądra różni się od KDE, szacowanie gęstości jądra? Powiedzmy, że mam estymator / wygładzacz / interpolator

est( xi, fi -> gridj, estj )

a także zdarza się, że poznajemy „rzeczywistą” gęstość f () na xi. Następnie uruchomienie est( x, densityf ) musi dać oszacowanie gęstościf (): KDE. Być może KS i KDE są oceniane inaczej - różne kryteria gładkości, różne normy - ale nie widzę zasadniczej różnicy. Czego mi brakuje ?

2) W jaki sposób wymiar wpływa na oszacowanie lub wygładzenie, intuicyjnie ? Oto zabawkowy przykład, aby pomóc intuicji. Rozważ pudełko N = 10000 punktów w jednolitej siatce oraz okno, linię, kwadrat lub sześcian o W = 64 punktów w nim:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

W tym przypadku „stosunek boków” jest bokiem okna / bokiem okna, a „odległość do wygranej” jest przybliżonym oszacowaniem średniej odległości losowego punktu w pudełku do losowo umieszczonego okna.

Czy to w ogóle ma sens? (Zdjęcie lub aplet naprawdę by pomogły: ktoś?)

Chodzi o to, że okno o stałym rozmiarze w pudełku o stałym rozmiarze ma bardzo różną bliskość do reszty pudełka, w 1d 2d 3d 4d. To jest dla jednolitej siatki; może silna zależność od wymiaru przenosi się na inne rozkłady, a może nie. W każdym razie wygląda to na silny ogólny efekt, aspekt przekleństwa wymiarowości.

denis
źródło
0

Oszacowanie gęstości jądra oznacza integrację w oknie lokalnym (rozmytym), a wygładzanie jądra oznacza uśrednienie w oknie lokalnym (rozmytym).

Wygładzanie jądra: y~(x)1ρ(x)K.(||x-xja||)yja.

Oszacowanie gęstości jądra: ρ(x)K.(||x-xja||).

Jak one są takie same?

Weźmy pod uwagę próbki funkcji o wartości logicznej, tj. Zestaw zawierający zarówno „próbki prawdziwe” (każda z wartością jednostkową), jak i „próbki fałszywe” (każda z wartością zerową). Zakładając, że ogólna gęstość próbki jest stała (jak siatka), lokalna średnia tej funkcji jest identycznie proporcjonalna do lokalnej (częściowej) gęstości podzbioru o prawdziwej wartości. (Fałszywe próbki pozwalają nam na ciągłe ignorowanie mianownika równania wygładzającego, dodając jednocześnie sumę zerową, aby uprościć równanie szacowania gęstości).

Podobnie, jeśli twoje próbki były reprezentowane jako rzadkie elementy na logicznym rastrze, możesz oszacować ich gęstość, stosując filtr rozmycia do rastra.

Czym się różnią?

Intuicyjnie można oczekiwać, że wybór algorytmu wygładzania będzie zależał od tego, czy pomiary próbki zawierają znaczny błąd pomiaru.

Na jednym krańcu (brak hałasu) wystarczy interpolować między dokładnie znanymi wartościami w przykładowych lokalizacjach. Powiedzmy, przez triangulację Delaunaya (z interpolacją cząstkową dwuliniową).

Oszacowanie gęstości przypomina przeciwną skrajność, jest to całkowicie szum, ponieważ próbce w izolacji nie towarzyszy pomiar wartości gęstości w tym punkcie. (Więc nie ma po prostu interpolować. Możesz rozważyć pomiar obszarów komórek diagramu Voronoi, ale wygładzanie / odszumienie nadal będzie ważne ..)

Chodzi o to, że pomimo podobieństwa są to zasadniczo różne problemy, więc różne podejścia mogą być optymalne.

Benjimin
źródło