Wiem, że regresja logistyczna znajduje hiperpłaszczyznę, która oddziela próbki szkoleniowe. Wiem również, że maszyny wektorowe wsparcia znajdują hiperpłaszczyznę z maksymalnym marginesem.
Moje pytanie: czy zatem różnica między regresją logistyczną (LR) a maszynami wektorów wsparcia (SVM) polega na tym, że LR znajduje jakąkolwiek hiperpłaszczyznę, która oddziela próbki szkoleniowe, podczas gdy SVM znajduje hiperpłaszczyznę z maksymalnym marginesem? A może się mylę?
Uwaga: pamiętaj, że w LR, gdy wówczas funkcja logistyczna daje 0,5 . Jeśli przyjmiemy 0,5 za próg klasyfikacji, to θ ⋅ x = 0 jest hiperpłaszczyzną lub granicą decyzji.
machine-learning
classification
svm
data-mining
Jack Twain
źródło
źródło
Odpowiedzi:
Masz rację, jeśli mówisz o twardym SVM, a dwie klasy można rozdzielić liniowo. LR znajduje dowolne rozwiązanie, które dzieli dwie klasy. Hard SVM znajduje „najlepsze” rozwiązanie spośród wszystkich możliwych, które ma maksymalny margines.
W przypadku miękkiego SVM i klas, których nie da się rozdzielić liniowo, nadal masz rację z niewielką modyfikacją. Błąd nie może być zerowy. LR znajduje hiperpłaszczyznę, która odpowiada minimalizacji pewnego błędu. Soft SVM próbuje zminimalizować błąd (kolejny błąd), a jednocześnie wymienia ten błąd z marginesem poprzez parametr regularyzacji.
Jedna różnica między nimi: SVM jest twardym klasyfikatorem, ale LR jest probabilistycznym. SVM jest rzadki. Wybiera wektory wspierające (z próbek treningowych), które mają najbardziej dyskryminującą moc między dwiema klasami. Ponieważ nie utrzymuje innych punktów szkolenia poza tym w czasie testu, nie mamy pojęcia o rozkładzie żadnej z dwóch klas.
Wyjaśniłem, jak psuje się rozwiązanie LR (wykorzystujące IRLS) w przypadku liniowej separowalności dwóch klas i dlaczego przestaje być klasyfikatorem probabilistycznym w takim przypadku: /stats//a/133292/66491
źródło