W 1999 r. Beyer i in. zapytał, kiedy „Nearest Neighbor” ma znaczenie?
Czy istnieją lepsze sposoby analizy i wizualizacji wpływu płaskości odległości na wyszukiwanie NN od 1999 r.?
Czy [dany] zestaw danych zawiera sensowne odpowiedzi na problem 1-NN? Problem 10-NN? Problem 100-NN?
Jak dziś eksperci podchodzą do tego pytania?
Edycje Poniedziałek 24 stycznia:
Co powiesz na „białą odległość” jako krótszą nazwę „płaskości odległości ze wzrostem wymiarów”?
Łatwym sposobem spojrzenia na „białą odległość” jest uruchomienie 2-NN i wyznaczenie odległości do najbliższego sąsiada i drugiego najbliższego sąsiada. Poniższy wykres pokazuje dist 1 i dist 2 dla szeregu klastrów i wymiarów według Monte Carlo. Ten przykład pokazuje całkiem dobry kontrast odległości dla skalowanej absolutnej różnicy | dist 2 - dist 1 |. (Różnice względne | dist 2 / dist 1 | → 1 jako wymiar → ∞, więc stają się bezużyteczne.)
To, czy błędy bezwzględne czy względne powinny być stosowane w danym kontekście, zależy oczywiście od „prawdziwego” obecnego hałasu: trudny.
Sugestia: zawsze uruchamiaj 2-NN; 2 sąsiedzi są przydatni, gdy są blisko, i przydatni, gdy nie są.
Odpowiedzi:
Nie mam pełnej odpowiedzi na to pytanie, ale mogę udzielić częściowej odpowiedzi na niektóre aspekty analityczne. Ostrzeżenie: Pracowałem nad innymi problemami od pierwszego artykułu poniżej, więc jest bardzo prawdopodobne, że istnieją inne dobre rzeczy, o których nie wiem.
Po pierwsze uważam, że warto zauważyć, że pomimo tytułu ich artykułu „Kiedy„ najbliższy sąsiad ”ma znaczenie”, Beyer i wsp. Odpowiedzieli na inne pytanie, a mianowicie kiedy NN nie ma znaczenia. Udowodniliśmy odwrotność do ich twierdzenia, przy pewnych dodatkowych łagodnych założeniach dotyczących wielkości próby, w When Is „Nearest Neighbor” Sens: A Converse Theorem and Implikations. Journal of Complexity, 25 (4), sierpień 2009, s. 385–397.i pokazał, że zdarzają się sytuacje, gdy (teoretycznie) koncentracja odległości nie powstanie (podajemy przykłady, ale w zasadzie liczba cech nieszumowych musi rosnąć wraz z wymiarowością, więc oczywiście rzadko pojawiają się w praktyce). Odwołania 1 i 7 cytowane w naszym artykule podają kilka przykładów sposobów ograniczenia koncentracji odległości w praktyce.
Artykuł mojego przełożonego, Aty Kabana, dotyczy tego, czy problemy z koncentracją odległości utrzymują się, pomimo zastosowania technik redukcji wymiarów w części Świadomość koncentracji odległości niektórych technik ograniczania danych. Rozpoznawanie wzorców. Vol. 44, wydanie 2, luty 2011, s. 265–277. . Tam też jest miła dyskusja.
Ostatni artykuł Radovanovica i in. Hubs in Space: Popular Najbliżsi sąsiedzi w danych wielowymiarowych. JMLR, 11 (wrzesień), wrzesień 2010, s. 2487–2531. omawia kwestię „hubness”, czyli gdy niewielki podzbiór punktów należą do najbliższych sąsiadów o wiele znakowanych obserwacji. Zobacz także pracę doktorską pierwszego autora, która jest dostępna w Internecie.k
źródło
Równie dobrze możesz zainteresować się analizą komponentów sąsiedzkich autorstwa Goldbergera i in.
Tutaj uczy się transformacji liniowej, aby zmaksymalizować oczekiwane poprawnie sklasyfikowane punkty poprzez stochastyczny wybór najbliższego sąsiedztwa.
Na podstawie danych określa się (oczekiwaną) liczbę sąsiadów.
źródło