Wybór optymalnego K dla KNN

15

Wykonałem 5-krotne CV, aby wybrać optymalną K dla KNN. I wydaje się, że im większy K, tym mniejszy błąd ...

wprowadź opis zdjęcia tutaj

Niestety nie miałem legendy, ale różne kolory reprezentują różne próby. Jest ich łącznie 5 i wygląda na to, że między nimi jest niewielka różnorodność. Błąd zawsze wydaje się zmniejszać, gdy K staje się większy. Jak więc wybrać najlepszy K? Czy K = 3 byłby tutaj dobrym wyborem, ponieważ rodzaj wykresu jest wyłączany po K = 3?

Adrian
źródło
Co zamierzasz zrobić z klastrami, gdy je znajdziesz? Ostatecznie to, co zamierzasz zrobić z klastrami produkowanymi przez algorytm klastrowania, pomoże ustalić, czy warto użyć więcej klastrów, aby uzyskać mały błąd.
Brian Borchers
Chcę wysokiej mocy predykcyjnej. W takim przypadku ... czy powinienem wybrać K = 20? Ponieważ ma najniższy błąd. Jednak faktycznie wykreśliłem błędy dla K do 100. A 100 ma najniższy błąd ze wszystkich ... więc podejrzewam, że błąd zmniejszy się wraz ze wzrostem K. Ale nie wiem, co jest dobrym punktem odcięcia.
Adrian

Odpowiedzi:

12

kkkkk niż mniejszy, jeśli różnica w błędach CV jest znikoma.

Jeśli błąd CV nie zacznie ponownie rosnąć, prawdopodobnie oznacza to, że atrybuty nie mają charakteru informacyjnego (przynajmniej dla tej odległości), a dawanie stałych wyników jest najlepsze, co może zrobić.

Dikran Torbacz
źródło
2

K.=17K.=3)

Flądrarz
źródło
0

Czy liczba klastrów ma jakieś fizyczne lub naturalne znaczenie? Jeśli się nie mylę, to naturalne, że wraz ze wzrostem K błąd maleje - coś w rodzaju przeregulowania. Zamiast wybierać optymalną K, prawdopodobnie lepiej wybrać K w oparciu o wiedzę domenową lub intuicję?

tohweizhong
źródło
Myślę, że ta odpowiedź byłaby bardziej odpowiednia dla grupowania k-średnich niż klasyfikacji lub regresji k-nn.
Dikran Torbacz
Jeśli wartość k jest zbyt duża, oznacza to, że błąd jest zbyt niski, błąd ponownie wzrośnie.
James