Wiem, że k-średnie nie jest nadzorowane i jest używane do grupowania itp. I że k-NN jest nadzorowany. Ale chciałem poznać konkretne różnice między
Klasyfikatory k-Nearest-Neighbor Te klasyfikatory są oparte na pamięci i nie wymagają dopasowania modelu. Biorąc pod uwagę punkt zapytania x0, znajdujemy k punktów szkoleniowych x (r), r = 1, ..., k najbliżej odległości x0, a następnie klasyfikujemy za pomocą głosów większości spośród k sąsiadów.
Wiem, że k-średnie nie jest nadzorowane i jest używane do grupowania itp. I że k-NN jest nadzorowany. Ale chciałem poznać konkretne różnice między
Chcę wygenerować fabułę opisaną w książce ElemStatLearn „Elementy statystycznego uczenia się: eksploracja danych, wnioskowanie i przewidywanie. Drugie wydanie” Trevora Hastiego i Roberta Tibshirani i Jerome Friedmana. Fabuła jest: Zastanawiam się, jak mogę stworzyć ten dokładny wykres R,...
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...
Z tego, co rozumiem, możemy zbudować funkcję regresji, która mieści się w przedziale danych treningowych. Na przykład (potrzebny jest tylko jeden panel): Jak przewidzieć przyszłość za pomocą regresora KNN? Ponownie wydaje się, że przybliża tylko funkcję mieszczącą się w przedziale danych...
Jestem trochę nowy w analizie danych / uczeniu maszynowym / itp. i czytałem o kilku sposobach łączenia wielu modeli i serii tego samego modelu w celu poprawy prognoz. Mam wrażenie, że po przeczytaniu kilku artykułów (często interesujących i świetnych z teorii i liter greckich, ale bez kodu i...
W 1999 r. Beyer i in. zapytał, kiedy „Nearest Neighbor” ma znaczenie? Czy istnieją lepsze sposoby analizy i wizualizacji wpływu płaskości odległości na wyszukiwanie NN od 1999 r.? Czy [dany] zestaw danych zawiera sensowne odpowiedzi na problem 1-NN? Problem 10-NN? Problem 100-NN? Jak dziś...
Jaka jest złożoność czasowa algorytmu k -NN z naiwnym podejściem wyszukiwania (bez drzewa kd lub podobnych)? Interesuje mnie jego złożoność czasowa, biorąc pod uwagę również hiperparametr k . Znalazłem sprzeczne odpowiedzi: O (nd + kn), gdzie n jest licznością zbioru treningowego, a d jest...
Wygląda na to, że KNN jest algorytmem uczenia się dyskryminującego, ale nie mogę znaleźć żadnych źródeł online potwierdzających to. Czy KNN jest dyskryminującym algorytmem uczenia
Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted...
Programuję algorytm kNN i chciałbym wiedzieć, co następuje: Przerwy w remisie: Co się stanie, jeśli w głosowaniu większościowym nie będzie wyraźnego zwycięzcy? Np. Wszyscy k najbliżsi sąsiedzi należą do różnych klas, czy dla k = 4 są 2 sąsiedzi z klasy A i 2 sąsiedzi z klasy B? Co się stanie,...
Czy ktoś mógłby mi wyjaśnić, dlaczego należy znormalizować dane, używając K najbliższych sąsiadów. Próbowałem to sprawdzić, ale nadal nie mogę tego zrozumieć. Znalazłem następujący link: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 Ale w tym wyjaśnieniu...
Wykonałem 5-krotne CV, aby wybrać optymalną K dla KNN. I wydaje się, że im większy K, tym mniejszy błąd ... Niestety nie miałem legendy, ale różne kolory reprezentują różne próby. Jest ich łącznie 5 i wygląda na to, że między nimi jest niewielka różnorodność. Błąd zawsze wydaje się zmniejszać,...
Szukam pakietu kalkulacyjnego KNN. Patrzyłem na pakiet imputacji ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), ale z jakiegoś powodu funkcja imputacji KNN (nawet jeśli podąża za przykładem z opisu) wydaje się tylko przypisywać wartości zerowe (jak poniżej). Rozglądałem się,...
Rozumiem uzasadnienie normalizacji kolumn, ponieważ powoduje, że cechy są ważone równo, nawet jeśli nie są mierzone w tej samej skali - jednak często w literaturze najbliższego sąsiada zarówno kolumny, jak i wiersze są znormalizowane. Do czego służy normalizacja wierszy / dlaczego normalizować...
Czy ktoś może poinformować o swoich doświadczeniach z adaptacyjnym estymatorem gęstości jądra? (Istnieje wiele synonimów: adaptacyjny | zmienny | zmienna szerokość, KDE | histogram | interpolator ...) Zmienne oszacowanie gęstości jądra mówi: „zmieniamy szerokość jądra w różnych regionach...
Jestem nowy w jądrach i wpadłem w kłopoty podczas próby jądra kNN. Czynności wstępne Używam wielomianowego jądra: K(x,y)=(1+⟨x,y⟩)dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d Twój typowy euklidesowy kNN używa następującej miary...
W Elements of Statistics Learning wprowadzono problem podkreślenia problemów z k-nn w przestrzeniach o dużych wymiarach. Istnieje punktów danych, które są równomiernie rozmieszczone w kuli jednostkowej wymiarowej.pNNNppp Mediana odległości od początku do najbliższego punktu danych jest wyrażona...
Według niektórych artykułów, które czytam, powszechnie stosuje się odległość Jeffriesa i Matusity. Ale nie mogłem znaleźć wielu informacji na ten temat, z wyjątkiem poniższej formuły JMD (x, y) = ∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} Jest...
Czytam książkę Kevina Murphy'ego: Machine Learning - A probabilistic Perspective. W pierwszym rozdziale autor wyjaśnia przekleństwo wymiarowości i jest część, której nie rozumiem. Jako przykład autor stwierdza: Zastanów się, czy dane wejściowe są równomiernie rozmieszczone wzdłuż sześcianu...
Jak zrozumiałem, k-NN jest algorytmem leniwego ucznia i nie wymaga fazy szkolenia. Dlaczego więc musimy używać .fit()sklearn i co się dzieje, gdy go