Chciałbym trenować maszynę SVM do klasyfikowania przypadków (PRAWDA / FAŁSZ) na podstawie 20 atrybutów. Wiem, że niektóre z tych atrybutów są wysoce skorelowane. Dlatego moje pytanie brzmi: czy SVM jest wrażliwy na korelację lub nadmiarowość między funkcjami? Jakieś referencje?
svm
multicollinearity
kernel-trick
użytkownik7064
źródło
źródło
Odpowiedzi:
Jądro liniowe: tutaj efekt jest podobny do wielokoliniowości w regresji liniowej. Twój wyuczony model może nie być szczególnie stabilny w stosunku do niewielkich różnic w zestawie treningowym, ponieważ różne wektory ciężaru będą miały podobne wyniki. Prognozy zestawu treningowego będą jednak dość stabilne, podobnie jak prognozy testowe, jeśli pochodzą z tego samego rozkładu.
Jądro RBF: Jądro RBF patrzy tylko na odległości między punktami danych. Wyobraź sobie, że masz 11 atrybutów, ale jeden z nich powtarza się 10 razy (dość ekstremalny przypadek). Wtedy ten powtarzający się atrybut przyczyni się do odległości 10 razy więcej niż jakikolwiek inny atrybut, a na wyuczony model prawdopodobnie będzie miał znacznie większy wpływ na tę cechę.
źródło