Znalazłem wiele artykułów, w których stwierdzono, że metody ulepszania są wrażliwe na wartości odstające, ale żaden artykuł nie wyjaśnia, dlaczego.
Z mojego doświadczenia wynika, że wartości odstające są złe dla dowolnego algorytmu uczenia maszynowego, ale dlaczego metody wspomagające są wyróżniane jako szczególnie wrażliwe?
Jak uszeregować następujące algorytmy pod względem wrażliwości na wartości odstające: drzewo doładowania, losowy las, sieć neuronowa, SVM i proste metody regresji, takie jak regresja logistyczna?
Odpowiedzi:
Wartości odstające mogą być złe dla wzmocnienia, ponieważ wzmocnienie buduje każde drzewo na podstawie resztek / błędów poprzednich drzew. Wartości odstające będą miały znacznie większe wartości resztowe niż wartości odstające, więc zwiększenie gradientu skoncentruje nieproporcjonalnie dużo uwagi na tych punktach.
źródło
Podane algorytmy służą do klasyfikacji, więc zakładam, że nie masz na myśli wartości odstających w zmiennej docelowej, ale wartości odstające zmiennej wejściowej. Metody drzewa wzmocnionego powinny być dość odporne na wartości odstające w elementach wejściowych, ponieważ podstawowymi uczniami są podziały drzew. Na przykład, jeśli podział wynosi
x > 3
5, a 5 000 000 jest traktowanych tak samo. To może, ale nie musi być dobrą rzeczą, ale to inne pytanie.Jeśli zamiast tego mówiłeś o regresji i wartościach odstających w zmiennej docelowej, wrażliwość metod drzewa wzmocnionego zależałaby od użytej funkcji kosztu. Oczywiście błąd do kwadratu jest wrażliwy na wartości odstające, ponieważ różnica jest do kwadratu, co będzie miało duży wpływ na następne drzewo, ponieważ zwiększenie prób dopasowania się do (gradientu) straty. Istnieją jednak bardziej niezawodne funkcje błędów, których można użyć w przypadku metod drzewa wzmocnionego, takich jak utrata Hubera i absolutna utrata.
źródło
Podczas wzmacniania próbujemy wybrać zestaw danych, w których wyniki algorytmu były słabe, zamiast losowo wybierać podzbiór danych. Te trudne przykłady są ważne do nauczenia się, więc jeśli zbiór danych ma wiele wartości odstających, a algorytm nie działa na nich dobrze, to aby nauczyć się tych twardych przykładów, algorytm będzie próbował wybrać podzbiory z tych przykładów.
źródło