Czy ktoś może poinformować o swoich doświadczeniach z adaptacyjnym estymatorem gęstości jądra?
(Istnieje wiele synonimów: adaptacyjny | zmienny | zmienna szerokość, KDE | histogram | interpolator ...)
Zmienne oszacowanie gęstości jądra
mówi: „zmieniamy szerokość jądra w różnych regionach przestrzeni próbki. Istnieją dwie metody ...” w rzeczywistości więcej: sąsiedzi w pewnym promieniu, najbliżsi sąsiedzi KNN (K zwykle ustalony), drzewa Kd, multigrid ...
Oczywiście żadna pojedyncza metoda nie może zrobić wszystkiego, ale metody adaptacyjne wyglądają atrakcyjnie.
Zobacz na przykład ładny obraz adaptacyjnej siatki 2d w
metodzie elementów skończonych .
Chciałbym usłyszeć, co zadziałało / co nie działało w przypadku rzeczywistych danych, zwłaszcza> = 100 tys. Rozproszonych punktów danych w 2D lub 3D.
Dodano 2 listopada: oto wykres „gęstej” gęstości (kawałek x ^ 2 * y ^ 2), oszacowanie najbliższego sąsiada i gaussowskie KDE ze współczynnikiem Scotta. Chociaż jeden (1) przykład niczego nie dowodzi, pokazuje, że NN może dość dobrze pasować do ostrych wzgórz (i przy użyciu drzew KD jest szybki w 2d, 3d ...)
źródło
Odpowiedzi:
Artykuł * DG Terrell; DW Scott (1992). „Zmienne oszacowanie gęstości jądra”. Annals of Statistics 20: 1236–1265. * Cytowany na końcu artykułu z Wikipedii, który sam cytujesz wyraźnie stwierdza, że o ile przestrzeń obserwacji nie jest bardzo rzadka, metoda zmiennej jądra nie jest zalecana na podstawie globalnego błędu średniej kwadratowej (oba lokalne i globalne) dla rozproszonych zmiennych losowych Gaussa: (poprzez argumenty teoretyczne) przytaczają liczby ( to wielkość próbki) i (poprzez wyniki ładowania początkowego) (n p ≥ 4 pn ≤ 450 n p ≥ 4 p to liczba wymiarów) jako ustawienia, w których metoda jądra zmiennego staje się konkurencyjna w stosunku do tych o stałej szerokości (sądząc z pytania, że nie ma tych ustawień).
Intuicyjność tych wyników polega na tym, że jeśli nie jesteś w bardzo rzadkich ustawieniach, to lokalna gęstość po prostu nie zmienia się wystarczająco, aby wzrost obciążenia był większy niż utrata wydajności (a zatem AMISE jądra o zmiennej szerokości wzrasta w stosunku do AMISE o stałej szerokości). Ponadto, biorąc pod uwagę duży rozmiar próbki (i małe wymiary), jądro o stałej szerokości będzie już bardzo lokalne, zmniejszając wszelkie potencjalne korzyści w zakresie odchylenia.
źródło
Papier
Maxim V. Shapovalov, Roland L. Dunbrack Jr., Wygładzona biblioteka rotamerowa zależna od szkieletu białek pochodzących z adaptacyjnych oszacowań i regresji gęstości jądra, Struktura, tom 19, wydanie 6, 8 czerwca 2011 r., Strony 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.
korzysta z adaptacyjnego szacowania gęstości jądra, aby ich gładkość była płynna w regionach, w których dane są rzadkie.
źródło
Loess / lowess jest w zasadzie zmienną metodą KDE, a szerokość jądra jest ustawiana przez podejście najbliższego sąsiada. Przekonałem się, że działa całkiem dobrze, z pewnością znacznie lepiej niż jakikolwiek model o stałej szerokości, gdy gęstość punktów danych różni się znacznie.
Jedną z rzeczy, o których należy pamiętać w KDE i danych wielowymiarowych, jest przekleństwo wymiarowości. Gdy inne rzeczy są równe, w ustalonym promieniu jest mniej punktów w przypadku p ~ 10 niż w przypadku p ~ 2. To może nie stanowić problemu, jeśli masz tylko dane 3d, ale warto o tym pamiętać.
źródło