Dlaczego klasyfikator regresji grzbietu działa całkiem dobrze w przypadku klasyfikacji tekstu?

18

Podczas eksperymentu dotyczącego klasyfikacji tekstu znalazłem klasyfikator grzbietowy generujący wyniki, które stale przewyższają testy wśród tych klasyfikatorów, które są częściej wymieniane i stosowane do zadań eksploracji tekstu, takich jak SVM, NB, kNN itp. Chociaż nie opracowałem na temat optymalizacji każdego klasyfikatora w tym konkretnym zadaniu klasyfikacji tekstu, z wyjątkiem kilku prostych poprawek dotyczących parametrów.

Taki wynik wspomniano również o torbaczu Dikran .

Nie pochodzę ze statystyk, po przeczytaniu niektórych materiałów online nadal nie mogę zrozumieć głównych przyczyn tego. Czy ktoś mógłby podać jakieś spostrzeżenia na temat takiego wyniku?

Płatek
źródło

Odpowiedzi:

16

Problemy z klasyfikacją tekstu mają zazwyczaj dość duże wymiary (wiele cech), a problemy z dużymi wymiarami mogą być liniowo rozdzielalne (ponieważ możesz oddzielić dowolne punkty d + 1 w przestrzeni d-wymiarowej za pomocą klasyfikatora liniowego, niezależnie od tego, w jaki sposób punkty są oznaczone). Tak więc klasyfikatory liniowe, czy regresja grzbietu, czy SVM z liniowym jądrem, prawdopodobnie dobrze sobie radzą. W obu przypadkach parametr grzbietu lub C dla SVM (jak tdc wspomina +1) kontroluje złożoność klasyfikatora i pomaga uniknąć nadmiernego dopasowania poprzez oddzielenie wzorów każdej klasy dużymi marginesami (tj. Powierzchnia decyzyjna przechodzi w dół środek luki między dwiema kolekcjami punktów). Jednak, aby uzyskać dobrą wydajność, parametry grzbietu / regularyzacji muszą być odpowiednio dostrojone (używam pomijalnej weryfikacji krzyżowej, ponieważ jest tanie).

Jednak powodem, dla którego regresja kalenicy działa dobrze, jest to, że metody nieliniowe są zbyt silne i trudno uniknąć nadmiernego dopasowania. Może istnieć nieliniowy klasyfikator, który zapewnia lepszą wydajność uogólnienia niż najlepszy model liniowy, ale zbyt trudno jest oszacować te parametry przy użyciu skończonej próbki danych treningowych, które mamy. W praktyce, im prostszy model, tym mniej problemów mamy przy szacowaniu parametrów, więc jest mniejsza tendencja do nadmiernego dopasowania, więc uzyskujemy lepsze wyniki w praktyce.

Innym problemem jest wybór funkcji, regresja kalenicy pozwala uniknąć nadmiernego dopasowania poprzez regulację ciężarów, aby były małe, a wybór modelu jest prosty, ponieważ wystarczy wybrać wartość tylko jednego parametru regresji. Jeśli spróbujesz uniknąć nadmiernego dopasowania, wybierając optymalny zestaw funkcji, wybór modelu staje się trudny, ponieważ dla każdej operacji występuje pewien stopień swobody (rodzaj), co pozwala na przeregulowanie kryterium wyboru funkcji, a Ty skończy się zestawem funkcji, które są optymalne dla tej konkretnej próbki danych, ale dają słabą wydajność generalizacji. Dlatego niewykonywanie wyboru funkcji i stosowanie regularyzacji często zapewnia lepszą wydajność predykcyjną.

Często używam Bagging (tworzę komitet modeli wytrenowanych na próbkach z zestawu treningowego) z modelami regresji grzbietowej, co często daje poprawę wydajności, a ponieważ wszystkie modele są liniowe, możesz je połączyć, aby utworzyć pojedynczy model liniowy , więc nie działa żadna obniżona wydajność.

Dikran Torbacz
źródło
d1re
Zwykle przyjmuje się, że punkty znajdują się w „pozycji ogólnej”, tak że (na przykład) nie leżą na linii prostej, w którym to przypadku w przestrzeni 2-d można oddzielić dowolne 3 punkty. Jeśli wszystkie punkty leżą w linii prostej, to tak naprawdę zamieszkują one podprzestrzeń 1-d osadzoną w przestrzeni 2-d.
Dikran Torbacz
Na wikipedii znajduje się stwierdzenie „skoro metoda uśrednia kilka predyktorów, nie jest przydatna do ulepszania modeli liniowych”, chociaż nie jestem pewien, dlaczego tak powinno być?
tdc,
Nie rozumiem też, dlaczego tak powinno być. Podejrzewam, że problem polega na tym, że spakowany model liniowy może być dokładnie reprezentowany przez pojedynczy model liniowy, jednak problemem jest oszacowanie parametrów pojedynczego modelu, a nie forma modelu. Odkryłem, że tworzenie worków poprawia uogólnienie, ale wzmocnienie jest na ogół niewielkie, chyba że masz o wiele więcej cech niż obserwacji (tak, że oszacowanie modelu jest niestabilne, a niewielka zmiana danych powoduje dużą zmianę w modelu).
Dikran Torbacz
Może powinieneś zaktualizować stronę Wikipedii!
Wygląda
6

Regresja kalenicy, jak sama nazwa wskazuje, jest metodą regresji, a nie klasyfikacji. Prawdopodobnie używasz progu, aby zmienić go w klasyfikator. W każdym razie po prostu uczysz się klasyfikatora liniowego zdefiniowanego przez hiperpłaszczyznę. Powodem, dla którego działa, jest to, że dane zadanie można zasadniczo rozdzielić liniowo - tzn. Wystarczy prosta hiperpłaszczyzna, aby oddzielić klasy. Parametr „grzbiet” pozwala mu pracować w przypadkach, które nie są całkowicie liniowo rozdzielne lub w problemach z brakiem rangi (w takim przypadku optymalizacja byłaby zdegenerowana).

W takim przypadku nie ma powodu, dla którego inne klasyfikatory również nie powinny osiągać dobrych wyników, zakładając, że zostały poprawnie zaimplementowane. Na przykład SVM znajduje „optymalną oddzielającą hiperpłaszczyznę” (tj. Hiperpłaszczyznę, która maksymalizuje margines lub odstęp między klasami). CParametr SVM jest regulacja wydajności parametr analogiczny do parametru grzbiet, co pozwala na niektórych błędów klasyfikacji (odstających). Zakładając, że proces wyboru parametrów został przeprowadzony z należytą starannością, spodziewałbym się, że dwie metody dadzą prawie dokładnie takie same wyniki w takim zestawie danych.

tdc
źródło
2
Pamiętam, że czytając, można wykazać, że binarna klasyfikacja LS-SVM jest równoważna regresji Ridge'a na etykietach -1,1, ich sformułowanie jest takie samo.
Firebug,
Pomyśl, że możesz mieć rację w tej sprawie
tdc