dlaczego metoda wzmocnienia jest wrażliwa na wartości odstające

12

Znalazłem wiele artykułów, w których stwierdzono, że metody ulepszania są wrażliwe na wartości odstające, ale żaden artykuł nie wyjaśnia, dlaczego.

Z mojego doświadczenia wynika, że ​​wartości odstające są złe dla dowolnego algorytmu uczenia maszynowego, ale dlaczego metody wspomagające są wyróżniane jako szczególnie wrażliwe?

Jak uszeregować następujące algorytmy pod względem wrażliwości na wartości odstające: drzewo doładowania, losowy las, sieć neuronowa, SVM i proste metody regresji, takie jak regresja logistyczna?

lserlohn
źródło
1
Edytowałem, aby spróbować wyjaśnić (także jeśli umieścisz spacje na początku linii, stackexchange potraktuje to jako kod). Do drugiego akapitu, doładowanie jest więc co? Może być konieczne zdefiniowanie wrażliwości.
Jeremy Miles,
1
Ponadto wartości odstające i hałas to nie to samo.
Jeremy Miles,
Nie oznaczyłbym jeszcze tego pytania jako rozwiązanego. Nie jest jasne, czy wzmocnienie rzeczywiście cierpi na wartości odstające bardziej niż inne metody, czy nie. Wygląda na to, że zaakceptowana odpowiedź została zaakceptowana głównie z powodu błędu potwierdzenia.
rinspy
Czy możesz udostępnić niektóre z tych artykułów?
acnalb

Odpowiedzi:

11

Wartości odstające mogą być złe dla wzmocnienia, ponieważ wzmocnienie buduje każde drzewo na podstawie resztek / błędów poprzednich drzew. Wartości odstające będą miały znacznie większe wartości resztowe niż wartości odstające, więc zwiększenie gradientu skoncentruje nieproporcjonalnie dużo uwagi na tych punktach.

Ryan Zotti
źródło
2
Lepiej będzie, jeśli podasz OP więcej szczegółów matematycznych!
Metariat
5
@Matemattica Nie zgadzam się, że dodanie szczegółów matematycznych zapewni tutaj dodatkową jasność. Byłby to po prostu symbol gradientów drzew i wskaźnik uczenia się kolejnych drzew.
Ryan Zotti
1
@RyanZotti: Zgadzam się z Metariatem. Bardziej formalna notacja rozwiązałaby pewne zamieszanie. Na przykład w zdaniu „Wartości odstające będą miały znacznie większe wartości resztowe niż wartości odstające”, co masz na myśli, co do reszt? Model szacowany czy prawdziwy? Jeśli ten pierwszy nie jest ogólnie prawdą, a ten drugi nie ma znaczenia.
user603,
1

Podane algorytmy służą do klasyfikacji, więc zakładam, że nie masz na myśli wartości odstających w zmiennej docelowej, ale wartości odstające zmiennej wejściowej. Metody drzewa wzmocnionego powinny być dość odporne na wartości odstające w elementach wejściowych, ponieważ podstawowymi uczniami są podziały drzew. Na przykład, jeśli podział wynosi x > 35, a 5 000 000 jest traktowanych tak samo. To może, ale nie musi być dobrą rzeczą, ale to inne pytanie.

Jeśli zamiast tego mówiłeś o regresji i wartościach odstających w zmiennej docelowej, wrażliwość metod drzewa wzmocnionego zależałaby od użytej funkcji kosztu. Oczywiście błąd do kwadratu jest wrażliwy na wartości odstające, ponieważ różnica jest do kwadratu, co będzie miało duży wpływ na następne drzewo, ponieważ zwiększenie prób dopasowania się do (gradientu) straty. Istnieją jednak bardziej niezawodne funkcje błędów, których można użyć w przypadku metod drzewa wzmocnionego, takich jak utrata Hubera i absolutna utrata.

ZakJ
źródło
0

Podczas wzmacniania próbujemy wybrać zestaw danych, w których wyniki algorytmu były słabe, zamiast losowo wybierać podzbiór danych. Te trudne przykłady są ważne do nauczenia się, więc jeśli zbiór danych ma wiele wartości odstających, a algorytm nie działa na nich dobrze, to aby nauczyć się tych twardych przykładów, algorytm będzie próbował wybrać podzbiory z tych przykładów.

waleed sial
źródło