Mam kilka wątpliwości co do intuicyjnego zrozumienia SVM. Załóżmy, że przeszkoliliśmy model SVM do klasyfikacji przy użyciu standardowych narzędzi, takich jak SVMLight lub LibSVM.
Kiedy używamy tego modelu do przewidywania danych testowych, model generuje plik mający wartości „alfa” dla każdego punktu testowego. Jeśli wartość alfa jest dodatnia, punkt testowy należy do klasy 1, w przeciwnym razie należy do klasy 2. Czy możemy powiedzieć, że punkt testowy o większej wartości „alfa” należy do odpowiedniej klasy o „wyższym” prawdopodobieństwie?
Podobne do pierwszego pytania, kiedy mamy przeszkolonego SVM. SV leżą bardzo blisko hiperpłaszczyzny. Czy to oznacza, że SV należy do tej klasy z dużym prawdopodobieństwem? Czy możemy powiązać prawdopodobieństwo punktu należącego do klasy z jego odległością od „hiperpłaszczyzny”? Czy wartość „alfa” oznacza odległość od „hiperpłaszczyzny”?
Dzięki za wkład.
Odpowiedzi:
Pozwól, że najpierw odpowiem na twoje pytanie. SVM nie jest modelem probabilistycznym. Jednym z powodów jest to, że nie odpowiada to normalizowanemu prawdopodobieństwu. Na przykład, w uregulowanej najmniejszych kwadratów mieć funkcję strat a regularizer ‖ wag ‖ 2 2 . Wektor masy jest uzyskiwany przez minimalizację sumy tych dwóch. Jest to jednak równoważne z maksymalizacją logarytmu tylnego w przy danych p ( w | ( y∑i∥yi−⟨w,xi⟩−b∥22 ∥w∥22 w , który widać jako iloczyn prawdopodobieństwo Gaussa i przeor Gaussa na w ( Zp(w|(y1,x1),...,(ym,xm))∝1/Zexp(−∥w∥22)∏iexp(∥yi−⟨w,xi⟩−b∥22) w Z upewnia się, że się normalizuje). Do funkcji prawdopodobieństwa Gaussa dochodzisz z funkcji straty przez odwrócenie jej znaku i potęgowanie go. Jeśli jednak zrobisz to z funkcją straty SVM, prawdopodobieństwo logarytmiczne nie będzie znormalizowanym modelem probabilistycznym.
Istnieją próby przekształcenia SVM w jeden. Najbardziej godnym uwagi, który - jak sądzę - jest również zaimplementowany w libsvm, jest:
John Platt: Wyniki probabilistyczne dla wektorów pomocniczych i porównanie ze znormalizowanymi metodami wiarygodności (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf
źródło