W jakich warunkach maszyny zwiększające gradient przewyższają losowe lasy?

16

Czy maszyna do zwiększania gradientu Friedmana może osiągnąć lepszą wydajność niż Losowy las Breimana ? Jeśli tak, to w jakich warunkach lub jakiego rodzaju zestaw danych może ulepszyć GBM?

użytkownik22062
źródło
6
Nie ma sposobu, aby powiedzieć z góry; musisz to wypróbować.
bayerj
cóż, w praktyce zwiększenie mocy prawie zawsze przewyższa RF ... Chociaż tak naprawdę nie wiem dokładnie dlaczego, osobiście nie spotkałem żadnego przypadku, w którym zwiększenie mocy RF było lepsze.
Antoine,
@Antoine learning z nieznakowanymi danymi i / lub szumem z etykiet jest jednym ze szczególnie okropnych przypadków użycia do wzmocnienia.
Marc Claesen,
Cóż, RF i Boosting są używane przede wszystkim do nadzorowanych zadań edukacyjnych, nawet jeśli czasami prawdą jest, że RF może być użyte do grupowania. Adaboost nie jest zbyt odporny na błędne etykietowanie z powodu funkcji strat wykładniczych, na którą duży wpływ ma hałas, ale Stochastic Boosting w ogólnym przypadku (na przykład z odchyleniem wielomianowym) jest bardziej niezawodny.
Antoine,
@MarcClaesen czy mógłbyś rzucić okiem na to pytanie ?
Antoine,

Odpowiedzi:

10

Poniżej znajduje się wyjaśnienie, dlaczego wzmocnienie ogólnie przewyższa losowy las w praktyce, ale byłbym bardzo zainteresowany, aby dowiedzieć się, jakie inne czynniki mogą tłumaczyć przewagę wzmocnienia w stosunku do częstotliwości radiowej w określonych ustawieniach.

mirror=bjazas+vzarjazandomi

Z drugiej strony, Boosting zmniejsza stronniczość (dodając każde nowe drzewo w sekwencji, aby uchwycić to, co zostało pominięte przez poprzednie drzewo), ale także wariancję (łącząc wiele modeli).

Tak więc Boosting zmniejsza błąd na obu frontach, podczas gdy RF może zredukować błąd tylko poprzez zmniejszenie wariancji. Oczywiście, jak już powiedziałem, w praktyce mogą istnieć inne wyjaśnienia dotyczące lepszej wydajności wzmocnienia. Na przykład, strona 591 wspomnianej książki, mówi się, że Boosting przewyższa RF w problemie z kulą zagnieżdżoną, ponieważ w tym konkretnym przypadku granica decyzji jest addytywna . (?) Informują również, że Boosting działa lepiej niż RF dla spamu i danych dotyczących mieszkań w Kalifornii.

Kolejnym odniesieniem, w którym stwierdzono, że Boosting przewyższa RF, jest Caruana i Niculescu-Mizil 2006 . Niestety raportują wyniki, ale nie próbują wyjaśniać, co je powoduje. Porównali dwa klasyfikatory (i wiele innych) z 11 problemami z klasyfikacją binarną dla 8 różnych wskaźników wydajności.

Antoine
źródło
7

Jak powiedział Bayerj, nie ma sposobu, aby poznać a priori!

Losowe lasy są stosunkowo łatwe do skalibrowania: domyślne parametry większości implementacji (na przykład R lub Python) osiągają świetne wyniki.

Z drugiej strony, GBM są trudne do dostrojenia (zbyt duża liczba drzew prowadzi do przeładowania, maksymalna głębokość jest krytyczna, szybkość uczenia się i liczba drzew działają razem ...) i dłużej trenują (implementacje wielowątkowe są rzadkie) . Luźno wykonane strojenie może prowadzić do niskiej wydajności.

Jednak z mojego doświadczenia wynika, że ​​jeśli spędzasz wystarczająco dużo czasu na GBM, prawdopodobnie osiągniesz lepszą wydajność niż losowy las.

m

RUser4512
źródło
1
A loosely performed tuning may lead to dramatic performance?Uważaj na błędną interpretację, ponieważ w języku angielskim dramaticoznacza bardzo dobry, wyjątkowy, fenomenalny itp.! Wydaje mi się, że jest to przeciwieństwo tego, co chciałeś powiedzieć ... Czy masz jakieś wytłumaczenie, dlaczego dokładnie dostrojone GBM przewyższają RF? To w zasadzie pytanie ...
Antoine,