Podczas wizualizacji danych jednowymiarowych często stosuje się technikę szacowania gęstości jądra w celu uwzględnienia nieprawidłowo wybranych szerokości pojemników.
Czy w moim jednowymiarowym zbiorze danych występują niepewności pomiaru, czy istnieje standardowy sposób na włączenie tych informacji?
Na przykład (i wybaczcie mi, jeśli moje rozumienie jest naiwne) KDE przekształca profil gaussowski z funkcjami delta obserwacji. To jądro Gaussa jest współużytkowane przez każdą lokalizację, ale parametr Gaussa może być zmieniany w celu dopasowania do niepewności pomiaru. Czy istnieje standardowy sposób na wykonanie tego? Mam nadzieję odzwierciedlić niepewne wartości za pomocą szerokich jąder.
Zaimplementowałem to po prostu w Pythonie, ale nie znam standardowej metody ani funkcji do wykonania tego. Czy są jakieś problemy z tą techniką? Zauważam, że daje to dziwnie wyglądające wykresy! Na przykład
W tym przypadku niskie wartości mają większe niepewności, więc zwykle zapewniają szerokie płaskie jądra, podczas gdy KDE przeważa niskie (i niepewne) wartości.
źródło
Odpowiedzi:
Sensowne jest zróżnicowanie szerokości, ale niekoniecznie dopasowanie szerokości jądra do niepewności.
Weź pod uwagę cel przepustowości, gdy mamy do czynienia ze zmiennymi losowymi, dla których obserwacje zasadniczo nie są niepewne (tj. Gdzie można je obserwować wystarczająco blisko, aby dokładnie) - nawet jeśli, KDE nie użyje zerowej przepustowości, ponieważ szerokość pasma odnosi się do zmienność rozkładu, a nie niepewność w obserwacji (tj. zmienność „między obserwacjami”, a nie niepewność „w obrębie obserwacji”).
To, co masz, jest zasadniczo dodatkowym źródłem zmienności (w przypadku „braku obserwacji-niepewności”), które jest inne dla każdej obserwacji.
Tak więc jako pierwszy krok powiedziałbym „jaka jest najmniejsza przepustowość, której użyłbym, gdyby dane miały 0 niepewności?” a następnie utwórz nową szerokość pasma, która jest pierwiastkiem kwadratowym sumy kwadratów tej szerokości pasma i którego do niepewności obserwacji.σi
Alternatywnym sposobem spojrzenia na problem byłoby potraktowanie każdej obserwacji jak małego jądra (tak jak zrobiłeś, co będzie reprezentować miejsce, w którym mogła być obserwacja), ale zwoje zwykłego (kde-) jądra (zwykle o stałej szerokości, ale nie musi być) z jądrem niepewności obserwacji, a następnie wykonać łączne oszacowanie gęstości. (Uważam, że to właściwie ten sam wynik, co zasugerowałem powyżej).
źródło
Chciałbym zastosować zmienny estymator gęstości jądra, np. Lokalne selektory przepustowości dla papieru do oceny gęstości jądra dekonwolucji próbują zbudować okno adaptacyjne KDE, gdy znany jest rozkład błędu pomiaru. Stwierdziłeś, że znasz wariancję błędu, więc to podejście powinno mieć zastosowanie w twoim przypadku. Oto kolejny artykuł na temat podobnego podejścia z zanieczyszczoną próbką: WYBÓR SZEROKOPASMOWEGO WYBORU W SZACUNKU GĘSTOŚCI JĄDKA Z ZANIECZYSZCZONEJ PRÓBKI
źródło
Możesz zajrzeć do rozdziału 6 w „Wielowymiarowa ocena gęstości: teoria, praktyka i wizualizacja” Davida W. Scotta, 1992, Wiley.
W przypadku wariantu jednowymiarowego (str. 130–131) wyprowadza on normalną regułę odniesienia dla wyboru szerokości pasma: gdzie to wariancja wzdłuż twojego wymiaru, to ilość danych, a to przepustowość (użyłeś w swoim pytaniu, więc nie myl tego z moją notacją).σ n h σ
Ogólna notacja KDE, której używa, to: gdzie jest funkcją jądra.K(⋅)
źródło
Właściwie myślę, że zaproponowana przez ciebie metoda nazywa się wykresem gęstości prawdopodobieństwa (PDP), tak jak jest powszechnie stosowana w geo-nauce, patrz artykuł tutaj: https://www.sciencedirect.com/science/article/pii/S0009254112001878
Istnieją jednak wady, jak wspomniano w powyższym artykule. Tak, jakby mierzone błędy były małe, na końcu pojawią się skoki w pliku PDF. Ale można również wygładzić PDP tak jak KDE, tak jak wspomniał @ Glen_b ♦
źródło