Jednym z typowych przypadków zastosowania szacowania gęstości jest wykrywanie nowości, czyli wykrywanie wartości odstających, w którym chodzi o to, że masz (lub głównie) dane jednego typu, ale interesują Cię bardzo rzadkie, jakościowe odrębne dane, które znacznie odbiegają od te typowe przypadki.
Przykładami są wykrywanie oszustw, wykrywanie awarii w systemach i tak dalej. Są to sytuacje, w których gromadzenie danych, które Cię interesują, jest bardzo trudne i / lub kosztowne. Te rzadkie przypadki, tj. Przypadki o niskim prawdopodobieństwie wystąpienia.
W większości przypadków nie jesteś zainteresowany dokładnym oszacowaniem dokładnego rozkładu, ale względnymi szansami (jak prawdopodobne jest, że dana próbka jest rzeczywistą wartością odstającą, a nie inną).
Istnieją dziesiątki samouczków i recenzji na ten temat. Ten jeden może być dobry na początek.
EDYCJA: dla niektórych osób wydaje się dziwne używanie szacowania gęstości do wykrywania wartości odstających. Uzgodnijmy najpierw jedno: kiedy ktoś dopasowuje model mieszany do swoich danych, faktycznie dokonuje oszacowania gęstości. Model mieszany reprezentuje rozkład prawdopodobieństwa.
kNN i GMM są rzeczywiście powiązane: są to dwie metody szacowania takiej gęstości prawdopodobieństwa. Jest to idea leżąca u podstaw wielu podejść do wykrywania nowości. Na przykład ten oparty na kNN, ten drugi oparty na oknach Parzen (które podkreślają ten sam pomysł na początku artykułu) i wiele innych .
Wydaje mi się (ale to tylko moja osobista percepcja), że większość, jeśli nie wszyscy, pracują nad tym pomysłem. Jak inaczej wyraziłbyś ideę nietypowego / rzadkiego wydarzenia?
źródło
Zazwyczaj KDE jest reklamowane jako alternatywa dla histogramów. Główną zaletą KDE w porównaniu z histogramami, w tym kontekście, jest złagodzenie wpływu dowolnie wybranych parametrów na wynik wizualny procedury. W szczególności (jak pokazano w powyższym linku) KDE nie wymaga od użytkownika określania punktów początkowych i końcowych.
źródło