Więc bawiłem się SVM i zastanawiam się, czy to dobra rzecz:
Mam zestaw funkcji ciągłych (od 0 do 1) i zestaw cech kategorycznych, które przekonwertowałem na zmienne obojętne. W tym konkretnym przypadku koduję datę pomiaru w zmiennej zastępczej:
Są 3 okresy, z których mam dane i zarezerwowałem dla nich 3 numery funkcji:
20: 21: 22:
Zatem w zależności od okresu, z którego pochodzą dane, różne funkcje otrzymają 1 przypisany; inni otrzymają 0.
Czy SVM będzie działał poprawnie z tym, czy to źle?
Używam SVMLight i liniowego jądra.
categorical-data
svm
feature-selection
linear-model
feature-construction
użytkownik3010273
źródło
źródło
Odpowiedzi:
SVM będzie obsługiwał zarówno zmienne binarne, jak i ciągłe, o ile wykonasz wstępne przetwarzanie: wszystkie funkcje powinny być skalowane lub znormalizowane. Po tym kroku z punktu widzenia algorytmów nie ma znaczenia, czy cechy są ciągłe czy binarne: w przypadku plików binarnych widzi próbki, które są albo „daleko”, albo bardzo podobne; dla ciągłego są również wartości pośrednie. Jądro nie ma znaczenia w odniesieniu do rodzaju zmiennych.
źródło
Replikując moją odpowiedź z http://www.quora.com/Machine-Learning/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together/answer/Arun-Iyer-1
Teraz możesz przedstawić wszystkie funkcje w jednym wektorze, co do którego możemy założyć, że są osadzone w i zacząć korzystać z gotowych pakietów do klasyfikacji / regresji itp.Rn
źródło