Ucząc się o zwiększaniu gradientu, nie słyszałem o żadnych ograniczeniach dotyczących właściwości „słabego klasyfikatora”, którego ta metoda używa do budowania i składania modelu. Jednak nie wyobrażam sobie zastosowania GB, który wykorzystuje regresję liniową, a właściwie po przeprowadzeniu niektórych testów - to nie działa. Testowałem najbardziej standardowe podejście z gradientem sumy kwadratów reszt i dodając kolejne modele razem.
Oczywistym problemem jest to, że reszty z pierwszego modelu są zapełniane w taki sposób, że tak naprawdę nie ma już linii regresji do dopasowania. Moje kolejne spostrzeżenie jest takie, że suma kolejnych modeli regresji liniowej może być również reprezentowana jako pojedynczy model regresji (dodając wszystkie punkty przecięcia i odpowiadające im współczynniki), więc nie wyobrażam sobie, jak to może ulepszyć model. Ostatnią obserwacją jest to, że regresja liniowa (najbardziej typowe podejście) wykorzystuje sumę kwadratów reszt jako funkcję straty - tę samą, której używa GB.
Pomyślałem także o obniżeniu współczynnika uczenia się lub zastosowaniu tylko podzbioru predyktorów dla każdej iteracji, ale ostatecznie można to w końcu zsumować do reprezentacji jednego modelu, więc myślę, że nie przyniosłoby to żadnej poprawy.
Czego tu brakuje? Czy regresja liniowa jest w jakiś sposób nieodpowiednia w przypadku korzystania z funkcji Gradient Boosting? Czy to dlatego, że regresja liniowa wykorzystuje sumę kwadratów reszt jako funkcję straty? Czy są jakieś szczególne ograniczenia słabych predyktorów, aby można je było zastosować do wzmocnienia gradientu?
Odpowiedzi:
Nie sądzę, żebyś tak naprawdę za niczym tęsknił!
Wydaje mi się, że właśnie to przybiłeś, i przedstawiłeś krótki szkic dowodu, że regresja liniowa bije tylko przyspieszanie regresji liniowych w tym ustawieniu.
Aby być pedantycznym, obie metody próbują rozwiązać następujący problem optymalizacji
Regresja liniowa po prostu zauważa, że można go rozwiązać bezpośrednio, znajdując rozwiązanie równania liniowego
Każdy z tych kroków jest wybierany w celu dalszego zmniejszenia sumy błędów kwadratu. Ale moglibyśmy znaleźć minimalną możliwą sumę błędów kwadratowych w tej postaci funkcjonalnej, po prostu wykonując pełną regresję liniową na początek.
Możliwą obroną wzmocnienia w tej sytuacji może być dorozumiana regularyzacja, którą zapewnia. Być może (nie grałem z tym) możesz użyć funkcji wczesnego zatrzymania wzmacniacza gradientu, wraz z weryfikacją krzyżową, aby zatrzymać się przed pełną regresją liniową. Zapewniłoby to uregulowanie regresji i prawdopodobnie pomogłoby w przeregulowaniu. Nie jest to szczególnie praktyczne, ponieważ w tym ustawieniu dostępne są bardzo skuteczne i dobrze znane opcje, takie jak regresja kalenicy i elastyczna siatka.
Wzmocnienie błyszczy, gdy nie ma zwięzłej funkcjonalnej formy. Wzmocnienie drzew decyzyjnych pozwala, aby funkcjonalna forma regresora / klasyfikatora rozwijała się powoli, dopasowując do danych, często skutkując złożonymi kształtami, o których nie można sobie nawet wyobrazić ręką i okiem. Kiedy pożądana jest prosta funkcjonalna forma , wzmocnienie nie pomoże ci jej znaleźć (lub przynajmniej jest to raczej nieefektywny sposób jej znalezienia).
źródło
Macierz projekcji najmniejszych kwadratów jest podana przez
Załóżmy, że pasujesz do regresji, a następnie obliczasz swoje wartości resztkowe
Oznacza to proste podejście dopasowania regresji, a następnie dopasowanie nowej regresji dla reszt z pierwszej regresji nie da nic sensownego, ponieważ X jest całkowicie nieskorelowany z e.
Piszę to, ponieważ powiedziałeś, że tak naprawdę nie ma nowej linii do dopasowania, która odpowiada powyższym pochodnym.
źródło