Czy maszyna wektorów wsparcia jest wrażliwa na korelację między atrybutami?

11

Chciałbym trenować maszynę SVM do klasyfikowania przypadków (PRAWDA / FAŁSZ) na podstawie 20 atrybutów. Wiem, że niektóre z tych atrybutów są wysoce skorelowane. Dlatego moje pytanie brzmi: czy SVM jest wrażliwy na korelację lub nadmiarowość między funkcjami? Jakieś referencje?

użytkownik7064
źródło
Domyślam się, że nie, ponieważ wygenerowanie separacji na podstawie jednej zmiennej osłabiłoby inne skorelowane zmienne w odniesieniu do dalszych separacji. Może jednak występować pewna niestabilność dotycząca wyboru wybranej zmiennej.
mandata
Mówisz o liniowym SVM, jądrze RBF, czy ...?
Dougal
Hmmmm, nie wiem ... czy odpowiedź zależy od tego?
user7064
Tak, absolutnie. Możesz zaprojektować jądro, aby jawnie radzić sobie z korelacjami, jeśli chcesz.
Dougal
1
@Dougal: Jeśli istnieją metody eliminacji efektu korelacji, czy nie oznacza to, że standardowy SVM jest wrażliwy na korelację?
por

Odpowiedzi:

12

Jądro liniowe: tutaj efekt jest podobny do wielokoliniowości w regresji liniowej. Twój wyuczony model może nie być szczególnie stabilny w stosunku do niewielkich różnic w zestawie treningowym, ponieważ różne wektory ciężaru będą miały podobne wyniki. Prognozy zestawu treningowego będą jednak dość stabilne, podobnie jak prognozy testowe, jeśli pochodzą z tego samego rozkładu.

Jądro RBF: Jądro RBF patrzy tylko na odległości między punktami danych. Wyobraź sobie, że masz 11 atrybutów, ale jeden z nich powtarza się 10 razy (dość ekstremalny przypadek). Wtedy ten powtarzający się atrybut przyczyni się do odległości 10 razy więcej niż jakikolwiek inny atrybut, a na wyuczony model prawdopodobnie będzie miał znacznie większy wpływ na tę cechę.

d(x,y)=(xy)TS1(xy)SxCxCS1=CTCS1

Dougal
źródło
To bardzo interesująca odpowiedź; Chciałbym przeczytać więcej o tym, jak złagodzić tego rodzaju problemy. Czy możesz dodać odniesienie lub dwa?
Sycorax mówi Przywróć Monikę
Nie znam dobrego jednego z ręki, ale rozejrzę się trochę, może dziś wieczorem.
Dougal
Niesamowite! Odbierz mnie, jeśli znajdziesz fajny artykuł. Cieszę się, że mój (+1) może dać ci ponad 3k. (-:
Sycorax mówi: Przywróć Monikę
1
Kluczem jest odwrotność macierzy kowariancji w odległości Mahalanobisa. Jeśli można to wiarygodnie oszacować, można to uwzględnić.
Vladislavs Dovgalecs