Główna idea k-Nearest-Neighbor uwzględnia najbliższych punktów i decyduje o klasyfikacji danych większością głosów. Jeśli tak, to nie powinno mieć problemów z danymi o wyższych wymiarach, ponieważ metody takie jak mieszanie wrażliwe na lokalizację mogą skutecznie znaleźć najbliższych sąsiadów.
Ponadto wybór funkcji w sieciach bayesowskich może zmniejszyć wymiar danych i ułatwić uczenie się.
Jednak niniejszy artykuł przeglądowy autorstwa Johna Lafferty w uczeniu statystycznym wskazuje, że uczenie się nieparametryczne w przestrzennych przestrzeniach cech jest nadal wyzwaniem i nierozwiązane.
Co idzie nie tak?
Odpowiedzi:
Ten problem jest znany jako przekleństwo wymiarowości . Zasadniczo, gdy zwiększasz liczbę wymiarów, , punkty w przestrzeni zwykle stają się dalekie od wszystkich innych punktów. To sprawia, że podział przestrzeni (tak jak jest to konieczne do klasyfikacji lub grupowania) jest bardzo trudny.re
Możesz to zobaczyć bardzo łatwo. Wygenerowałem losowych punktów wymiarowych w jednostkowym hipersześcianie przy 20 równomiernie wybranych wartościach z . Dla każdej wartości obliczyłem odległość od pierwszego punktu do wszystkich innych i wziąłem średnią z tych odległości. Kreśląc to, widzimy, że średnia odległość rośnie wraz z wymiarowością, nawet jeśli przestrzeń, w której generujemy punkty w każdym wymiarze, pozostaje taka sama.d d 1..1000 d50 re re 1..1000 re
Średnia odległość a wymiarowość
źródło
Nie jest to kompletna odpowiedź, ale cytowana strona Wikipedii stwierdza:
Prawdopodobieństwo tego wystąpienia wzrasta w obecności wielowymiarowych przestrzeni cech.
źródło