Problemy z klasyfikacją tekstu mają zazwyczaj dość duże wymiary (wiele cech), a problemy z dużymi wymiarami mogą być liniowo rozdzielalne (ponieważ możesz oddzielić dowolne punkty d + 1 w przestrzeni d-wymiarowej za pomocą klasyfikatora liniowego, niezależnie od tego, w jaki sposób punkty są oznaczone). Tak więc klasyfikatory liniowe, czy regresja grzbietu, czy SVM z liniowym jądrem, prawdopodobnie dobrze sobie radzą. W obu przypadkach parametr grzbietu lub C dla SVM (jak tdc wspomina +1) kontroluje złożoność klasyfikatora i pomaga uniknąć nadmiernego dopasowania poprzez oddzielenie wzorów każdej klasy dużymi marginesami (tj. Powierzchnia decyzyjna przechodzi w dół środek luki między dwiema kolekcjami punktów). Jednak, aby uzyskać dobrą wydajność, parametry grzbietu / regularyzacji muszą być odpowiednio dostrojone (używam pomijalnej weryfikacji krzyżowej, ponieważ jest tanie).
Jednak powodem, dla którego regresja kalenicy działa dobrze, jest to, że metody nieliniowe są zbyt silne i trudno uniknąć nadmiernego dopasowania. Może istnieć nieliniowy klasyfikator, który zapewnia lepszą wydajność uogólnienia niż najlepszy model liniowy, ale zbyt trudno jest oszacować te parametry przy użyciu skończonej próbki danych treningowych, które mamy. W praktyce, im prostszy model, tym mniej problemów mamy przy szacowaniu parametrów, więc jest mniejsza tendencja do nadmiernego dopasowania, więc uzyskujemy lepsze wyniki w praktyce.
Innym problemem jest wybór funkcji, regresja kalenicy pozwala uniknąć nadmiernego dopasowania poprzez regulację ciężarów, aby były małe, a wybór modelu jest prosty, ponieważ wystarczy wybrać wartość tylko jednego parametru regresji. Jeśli spróbujesz uniknąć nadmiernego dopasowania, wybierając optymalny zestaw funkcji, wybór modelu staje się trudny, ponieważ dla każdej operacji występuje pewien stopień swobody (rodzaj), co pozwala na przeregulowanie kryterium wyboru funkcji, a Ty skończy się zestawem funkcji, które są optymalne dla tej konkretnej próbki danych, ale dają słabą wydajność generalizacji. Dlatego niewykonywanie wyboru funkcji i stosowanie regularyzacji często zapewnia lepszą wydajność predykcyjną.
Często używam Bagging (tworzę komitet modeli wytrenowanych na próbkach z zestawu treningowego) z modelami regresji grzbietowej, co często daje poprawę wydajności, a ponieważ wszystkie modele są liniowe, możesz je połączyć, aby utworzyć pojedynczy model liniowy , więc nie działa żadna obniżona wydajność.
Regresja kalenicy, jak sama nazwa wskazuje, jest metodą regresji, a nie klasyfikacji. Prawdopodobnie używasz progu, aby zmienić go w klasyfikator. W każdym razie po prostu uczysz się klasyfikatora liniowego zdefiniowanego przez hiperpłaszczyznę. Powodem, dla którego działa, jest to, że dane zadanie można zasadniczo rozdzielić liniowo - tzn. Wystarczy prosta hiperpłaszczyzna, aby oddzielić klasy. Parametr „grzbiet” pozwala mu pracować w przypadkach, które nie są całkowicie liniowo rozdzielne lub w problemach z brakiem rangi (w takim przypadku optymalizacja byłaby zdegenerowana).
W takim przypadku nie ma powodu, dla którego inne klasyfikatory również nie powinny osiągać dobrych wyników, zakładając, że zostały poprawnie zaimplementowane. Na przykład SVM znajduje „optymalną oddzielającą hiperpłaszczyznę” (tj. Hiperpłaszczyznę, która maksymalizuje margines lub odstęp między klasami).
C
Parametr SVM jest regulacja wydajności parametr analogiczny do parametru grzbiet, co pozwala na niektórych błędów klasyfikacji (odstających). Zakładając, że proces wyboru parametrów został przeprowadzony z należytą starannością, spodziewałbym się, że dwie metody dadzą prawie dokładnie takie same wyniki w takim zestawie danych.źródło