Wybór wartości k dla analizy wykrywania lokalnego współczynnika odstającego (LOF)

9

Mam zestaw danych trójwymiarowych i staram się korzystać z analizy lokalnego współczynnika odstającego, aby zidentyfikować najbardziej unikalne lub dziwne wartości. Jak decyduje się, jaką wartość k zastosować w analizie LOF? Rozumiem, co określa wartość k, więc nie jestem zaskoczony, że widzę nieco inne wyniki przy użyciu różnych wartości k, ale nie jestem pewien, czy istnieją cechy mojego zestawu danych, które powinny popchnąć mnie w kierunku jednej wartości nad innymi . Dzięki!

Henry D.
źródło

Odpowiedzi:

11

Zamieszczając to tutaj dla każdego, kto spotka się z moim pytaniem w przyszłości - oryginalny artykuł opisujący algorytm lokalnego czynnika odstającego, „LOF: Identyfikacja lokalnych wartości odstających opartych na gęstości” (Breunig i in.), Zaleca metodę wyboru wartości k . Dla przypomnienia algorytm LOF porównuje gęstość każdego punktu z jego gęstościąk-najbliżsi sąsiedzi. Autorzy artykułu zalecają wybór minimumk i maksymalnie k, i dla każdego punktu, biorąc maksymalną wartość LOF nad każdym kw tym zakresie. Oferują kilka wskazówek dotyczących wyboru granic.

W przypadku wartości minimalnej wartości LOF zmieniają się w zależności od punktów o jednolitym rozkładzie k<10, z punktami o jednolitym rozkładzie czasami wyświetlanymi jako wartości odstające, więc przynajmniej zalecają mjan(k)=10. Po drugie, minimumk-wartość służy jako minimalny rozmiar dla czegoś, co można uznać za „klaster”, dzięki czemu punkty mogą być odstające od tego klastra. Gdybyk=15i masz grupę 12 punkty i punkt p, każdy punkt w grupie będzie obejmował p w najbliższych sąsiadach, oraz pobejmie te punkty, prowadząc je do bardzo podobnych LOF. Więc jeśli chcesz rozważyć punkt w pobliżu grupyN. wskazuje jako wartość odstającą, a nie jako część tej grupy, twoja wartość k powinna wynosić co najmniej N..

W przypadku wartości maksymalnej obowiązują podobne kryteria, ponieważ powinna to być maksymalna liczba obiektów, które mają być traktowane jako wartości odstające, jeśli zostaną zgrupowane razem. GrupaN. obiekty izolowane od głównego zestawu mogą być klastrem lub N.wartości odstające; dlak<N.będą pierwszymi; dlak>N.będą drugim.

Mam nadzieję, że pomoże to każdemu z podobnym problemem. Pełny tekst jest tutaj , a dyskusja na temat maksymalnych / minimalnych wartości k rozpoczyna się na stronie 7 i przechodzi na stronę 9. (Odnoszą się dok-wartość jako MinPts .)

Henry D.
źródło
Chcę tylko zrozumieć jedną rzecz. Powiedzmy, że dla każdego zestawu danych wybieram k = 20 i generuję LOF dla każdego punktu, a następnie pokazuję wszystkie punkty w malejącej kolejności LOF. Teraz, gdy analizuję dane, mogę wybrać zakres, do którego uważam, że dane są wartościami odstającymi (zgodnie ze znajomością dziedziny). Czy uważasz, że to pomaga? Jestem tylko sobą, ponieważ teraz nie muszę się martwić wartością k i używam swojej wiedzy o domenie do analizowania wartości odstających według rankingu LOF. Dzięki,
Swapnil Bhure,