Wiem, że k-średnie nie jest nadzorowane i jest używane do grupowania itp. I że k-NN jest nadzorowany. Ale chciałem poznać konkretne różnice między nimi?
86
Wiem, że k-średnie nie jest nadzorowane i jest używane do grupowania itp. I że k-NN jest nadzorowany. Ale chciałem poznać konkretne różnice między nimi?
Odpowiedzi:
To są zupełnie inne metody. Fakt, że oboje mają literę K w swoim imieniu, jest zbiegiem okoliczności.
Środki K to algorytm grupowania, który próbuje podzielić zestaw punktów na zestawy K (klastry), tak aby punkty w każdym klastrze znajdowały się blisko siebie. Nie jest nadzorowane, ponieważ punkty nie mają zewnętrznej klasyfikacji.
K-najbliżsi sąsiedzi to algorytm klasyfikacji (lub regresji), który w celu ustalenia klasyfikacji punktu łączy klasyfikację K najbliższych punktów. Jest nadzorowany, ponieważ próbujesz sklasyfikować punkt na podstawie znanej klasyfikacji innych punktów.
źródło
Jak zauważył Bitwise w swojej odpowiedzi , k-średnich jest algorytmem klastrowania. Jeśli chodzi o k-najbliższych sąsiadów (k-NN), terminologia jest nieco niewyraźna:
w kontekście klasyfikacji jest to algorytm klasyfikacji, jak również wspomniano we wspomnianej odpowiedzi
ogólnie jest to problem , dla którego istnieją różne rozwiązania (algorytmy)
Zatem w pierwszym kontekście powiedzenie „klasyfikator k-NN” może w rzeczywistości oznaczać różne podstawowe algorytmy, które rozwiązują problem k-NN, a ich wynik jest interpretowany do celów klasyfikacji.
Są to dwie różne rzeczy, ale może się okazać interesujące, że algorytm k-średnich jest jedną z różnych możliwych metod rozwiązania problemu k-NN (Marius Muja i David G. Lowe, „Szybcy przybliżeni najbliżsi sąsiedzi z automatyczną konfiguracją algorytmu” , w Międzynarodowa konferencja na temat teorii i aplikacji komputerowych (VISAPP'09), 2009 PDF )
źródło
Możesz mieć nadzorowane k-średnie. Możesz budować centroidy (jak w k-średnich) na podstawie swoich oznaczonych danych. Nic Cię nie powstrzyma. Jeśli chcesz to poprawić, przestrzeń euklidesowa i odległość euklidesowa mogą nie zapewnić najlepszych wyników. Musisz wybrać swoją przestrzeń (może to być na przykład przestrzeń Riemanniana) i zdefiniować odległość między punktami (a nawet zdefiniować „punkt”). Dwa ostatnie są tematami badań i zależą również od rodzaju (właściwości) posiadanych danych (sygnału).
źródło
Środki K mogą tworzyć informacje o klastrze dla sąsiednich węzłów, a KNN nie może znaleźć klastra dla danego węzła sąsiedniego.
źródło
k Środki można wykorzystać jako fazę szkolenia przed wdrożeniem KNN na właściwym etapie klasyfikacji. K oznacza, że tworzy klasy reprezentowane przez środek ciężkości i etykietę klasy próbek należących do każdej klasy. knn używa tych parametrów, a także numeru k, aby sklasyfikować niewidzialną nową próbkę i przypisać ją do jednej z klas k utworzonych przez algorytm K oznacza
źródło