Porównanie SVM i regresji logistycznej

37

Czy ktoś może mi podpowiedzieć, kiedy wybrać SVM lub LR? Chcę zrozumieć intuicję stojącą za różnicą między kryteriami optymalizacji uczenia się hiperpłaszczyzny tych dwóch, gdzie odpowiednie cele są następujące:

  • SVM: Spróbuj zmaksymalizować margines między najbliższymi wektorami wsparcia
  • LR: Maksymalizuj prawdopodobieństwo tylnej klasy

Rozważmy liniową przestrzeń cech dla SVM i LR.

Niektóre różnice, o których już wiem:

  1. SVM jest deterministyczny (ale możemy użyć modelu Plattsa do oceny prawdopodobieństwa), podczas gdy LR jest probabilistyczny.
  2. W przypadku przestrzeni jądra SVM jest szybszy (sklepy obsługują tylko wektory)
użytkownik41799
źródło
2
To stwierdzenie jest błędne: „ LR: Maksymalizuj prawdopodobieństwo klasy tylnej ”. Regresja logistyczna maksymalizuje prawdopodobieństwo, a nie pewną gęstość boczną. Bayesowska regresja logistyczna to inna historia, ale musisz być konkretny, jeśli o to ci chodzi.
Digio

Odpowiedzi:

30

Liniowe maszyny SVM i regresja logistyczna na ogół działają w praktyce porównywalnie. Użyj SVM z nieliniowym jądrem, jeśli masz powód, by sądzić, że twoje dane nie będą liniowo rozdzielalne (lub musisz być bardziej odporny na wartości odstające, niż LR normalnie toleruje). W przeciwnym razie po prostu spróbuj najpierw regresji logistycznej i zobacz, jak sobie radzisz z tym prostszym modelem. Jeśli regresja logistyczna Cię nie powiedzie, wypróbuj SVM z nieliniowym jądrem, takim jak RBF.

EDYTOWAĆ:

Ok, pomówmy o tym, skąd pochodzą funkcje celu.

Regresja logistyczna pochodzi od ogólnej regresji liniowej. Dobre omówienie funkcji celu regresji logistycznej w tym kontekście można znaleźć tutaj: https://stats.stackexchange.com/a/29326/8451

Algorytm maszyn wektorów wsparcia jest znacznie bardziej motywowany geometrycznie . Zamiast zakładać model probabilistyczny, staramy się znaleźć konkretną optymalną hiperpłaszczyznę oddzielającą, w której definiujemy „optymalność” w kontekście wektorów podporowych. Nie mamy tu nic podobnego do modelu statystycznego, którego używamy w regresji logistycznej, nawet jeśli przypadek liniowy da nam podobne wyniki: tak naprawdę oznacza to, że regresja logistyczna ma całkiem dobrą robotę, tworząc „szeroki margines” klasyfikatorów, ponieważ to wszystko, co SVM próbuje zrobić (w szczególności, SVM próbuje „zmaksymalizować” margines między klasami).

Spróbuję wrócić do tego później i zagłębić się w chwasty, jestem po prostu w trakcie czegoś: p

David Marks
źródło
1
Ale to wciąż nie odpowiada na moje pytanie, jaka jest intuicyjna różnica w funkcjach obiektywnych SVM v / s LR, które są następujące: (a) SVM: Spróbuj zmaksymalizować margines między najbliższymi wektorami pomocniczymi (b) LR: Maksymalizuj prawdopodobieństwo klasy tylnej
41799
Mam na myśli, to zupełnie inne pytanie. Zastanawiasz się, kiedy użyć modeli lub co motywuje formę ich obiektywnych funkcji?
David Marx,
1
Bardziej interesuje mnie, co motywuje formę ich funkcji celu
41799
4
Spróbuję wrócić do tego później i
zagłębić
23

Regresja logistyczna kontra SVM

Obraz oznacza różnicę między SVM a regresją logistyczną i tym, gdzie użyć której metody

to zdjęcie pochodzi z kursu: „uczenie maszynowe” Andrew NG. Można go znaleźć w 7 tygodniu na końcu: „Obsługa maszyn wektorowych - za pomocą SVM”

JSONParser
źródło
Czy przez „funkcje” rozumiesz liczbę unikalnych atrybutów czy całkowitą liczbę unikalnych wartości należących do tych atrybutów?
Ahmedov
np .: w prognozie ceny gumy, jedną cechą jest cena benzyny, drugą jest pogoda itp ...
JSONParser
W rzeczywistości obraz nie mówi nic o ich różnicach ...
Jan Kukacka
różnica może być błędna, porównanie słów może być lepsze
JSONParser
1
  • LR daje skalibrowane prawdopodobieństwa, które można interpretować jako zaufanie do decyzji.
  • LR daje nam nieograniczony, płynny cel.
  • LR może być (bezpośrednio) stosowany w modelach bayesowskich.
  • Maszyny SVM nie karzą przykładów, w przypadku których podjęto właściwą decyzję z wystarczającą pewnością. Może to być dobre dla uogólnienia.
  • SVM mają ładną podwójną formę, dającą rzadkie rozwiązania podczas korzystania z trików jądra (lepsza skalowalność)

Sprawdź maszyny wektorowe wsparcia a regresja logistyczna, University of Toronto CSC2515 autorstwa Kevina Swersky'ego .

Chankey Pathak
źródło