Zamieszczając to tutaj dla każdego, kto spotka się z moim pytaniem w przyszłości - oryginalny artykuł opisujący algorytm lokalnego czynnika odstającego, „LOF: Identyfikacja lokalnych wartości odstających opartych na gęstości” (Breunig i in.), Zaleca metodę wyboru wartości k . Dla przypomnienia algorytm LOF porównuje gęstość każdego punktu z jego gęstościąk-najbliżsi sąsiedzi. Autorzy artykułu zalecają wybór minimumk i maksymalnie k, i dla każdego punktu, biorąc maksymalną wartość LOF nad każdym kw tym zakresie. Oferują kilka wskazówek dotyczących wyboru granic.
W przypadku wartości minimalnej wartości LOF zmieniają się w zależności od punktów o jednolitym rozkładzie k < 10, z punktami o jednolitym rozkładzie czasami wyświetlanymi jako wartości odstające, więc przynajmniej zalecają m i n ( k ) = 10. Po drugie, minimumk-wartość służy jako minimalny rozmiar dla czegoś, co można uznać za „klaster”, dzięki czemu punkty mogą być odstające od tego klastra. Gdybyk = 15i masz grupę 12 punkty i punkt p, każdy punkt w grupie będzie obejmował p w najbliższych sąsiadach, oraz pobejmie te punkty, prowadząc je do bardzo podobnych LOF. Więc jeśli chcesz rozważyć punkt w pobliżu grupyN. wskazuje jako wartość odstającą, a nie jako część tej grupy, twoja wartość k powinna wynosić co najmniej N..
W przypadku wartości maksymalnej obowiązują podobne kryteria, ponieważ powinna to być maksymalna liczba obiektów, które mają być traktowane jako wartości odstające, jeśli zostaną zgrupowane razem. GrupaN. obiekty izolowane od głównego zestawu mogą być klastrem lub N.wartości odstające; dlak < Nbędą pierwszymi; dlak > Nbędą drugim.
Mam nadzieję, że pomoże to każdemu z podobnym problemem. Pełny tekst jest tutaj , a dyskusja na temat maksymalnych / minimalnych wartości k rozpoczyna się na stronie 7 i przechodzi na stronę 9. (Odnoszą się dok-wartość jako MinPts .)