Wykonałem 5-krotne CV, aby wybrać optymalną K dla KNN. I wydaje się, że im większy K, tym mniejszy błąd ...
Niestety nie miałem legendy, ale różne kolory reprezentują różne próby. Jest ich łącznie 5 i wygląda na to, że między nimi jest niewielka różnorodność. Błąd zawsze wydaje się zmniejszać, gdy K staje się większy. Jak więc wybrać najlepszy K? Czy K = 3 byłby tutaj dobrym wyborem, ponieważ rodzaj wykresu jest wyłączany po K = 3?
Odpowiedzi:
Jeśli błąd CV nie zacznie ponownie rosnąć, prawdopodobnie oznacza to, że atrybuty nie mają charakteru informacyjnego (przynajmniej dla tej odległości), a dawanie stałych wyników jest najlepsze, co może zrobić.
źródło
źródło
Czy liczba klastrów ma jakieś fizyczne lub naturalne znaczenie? Jeśli się nie mylę, to naturalne, że wraz ze wzrostem K błąd maleje - coś w rodzaju przeregulowania. Zamiast wybierać optymalną K, prawdopodobnie lepiej wybrać K w oparciu o wiedzę domenową lub intuicję?
źródło