Jakie są główne różnice między średnimi K i najbliższymi sąsiadami?

Odpowiedzi:

106

To są zupełnie inne metody. Fakt, że oboje mają literę K w swoim imieniu, jest zbiegiem okoliczności.

Środki K to algorytm grupowania, który próbuje podzielić zestaw punktów na zestawy K (klastry), tak aby punkty w każdym klastrze znajdowały się blisko siebie. Nie jest nadzorowane, ponieważ punkty nie mają zewnętrznej klasyfikacji.

K-najbliżsi sąsiedzi to algorytm klasyfikacji (lub regresji), który w celu ustalenia klasyfikacji punktu łączy klasyfikację K najbliższych punktów. Jest nadzorowany, ponieważ próbujesz sklasyfikować punkt na podstawie znanej klasyfikacji innych punktów.

Bitowe
źródło
6
Myślę, że jest więcej podobieństwa, niż ten facet przyznaje. Obaj używają metod odległości do grupowania i klasyfikowania odpowiednio danych wejściowych. Często dlatego uczy się ich razem i dlatego omawia się z nimi kwestie wymiarowości. Do obu można zastosować różne metody odległości. W rzeczywistości istnieje wiele podobieństw.
eljusticiero67,
@ eljusticiero67 oczywiście służą do klasyfikacji danych wejściowych, o czym wspomina OP. I większość klasycznych metod uczenia się opiera się na odległości, więc nie jest to również zaskakujące. Należy zauważyć, że PO był zainteresowany różnicami. Zrozumiałem to tak, jakby OP sugerował, że w obu nazwach może występować podobieństwo.
Bitowy
12

Jak zauważył Bitwise w swojej odpowiedzi , k-średnich jest algorytmem klastrowania. Jeśli chodzi o k-najbliższych sąsiadów (k-NN), terminologia jest nieco niewyraźna:

  • w kontekście klasyfikacji jest to algorytm klasyfikacji, jak również wspomniano we wspomnianej odpowiedzi

  • ogólnie jest to problem , dla którego istnieją różne rozwiązania (algorytmy)

Zatem w pierwszym kontekście powiedzenie „klasyfikator k-NN” może w rzeczywistości oznaczać różne podstawowe algorytmy, które rozwiązują problem k-NN, a ich wynik jest interpretowany do celów klasyfikacji.

Są to dwie różne rzeczy, ale może się okazać interesujące, że algorytm k-średnich jest jedną z różnych możliwych metod rozwiązania problemu k-NN (Marius Muja i David G. Lowe, „Szybcy przybliżeni najbliżsi sąsiedzi z automatyczną konfiguracją algorytmu” , w Międzynarodowa konferencja na temat teorii i aplikacji komputerowych (VISAPP'09), 2009 PDF )

BartoszKP
źródło
0

Możesz mieć nadzorowane k-średnie. Możesz budować centroidy (jak w k-średnich) na podstawie swoich oznaczonych danych. Nic Cię nie powstrzyma. Jeśli chcesz to poprawić, przestrzeń euklidesowa i odległość euklidesowa mogą nie zapewnić najlepszych wyników. Musisz wybrać swoją przestrzeń (może to być na przykład przestrzeń Riemanniana) i zdefiniować odległość między punktami (a nawet zdefiniować „punkt”). Dwa ostatnie są tematami badań i zależą również od rodzaju (właściwości) posiadanych danych (sygnału).

Anton Andreev
źródło
-2

Środki K mogą tworzyć informacje o klastrze dla sąsiednich węzłów, a KNN nie może znaleźć klastra dla danego węzła sąsiedniego.

Rti
źródło
-2

k Środki można wykorzystać jako fazę szkolenia przed wdrożeniem KNN na właściwym etapie klasyfikacji. K oznacza, że ​​tworzy klasy reprezentowane przez środek ciężkości i etykietę klasy próbek należących do każdej klasy. knn używa tych parametrów, a także numeru k, aby sklasyfikować niewidzialną nową próbkę i przypisać ją do jednej z klas k utworzonych przez algorytm K oznacza

mohatef
źródło