Czytałem różne (pozornie) sprzeczne stwierdzenia, czy AdaBoost (lub inne techniki wspomagające) są mniej lub bardziej podatne na nadmierne dopasowanie w porównaniu do innych metod uczenia się.
Czy istnieją dobre powody, by wierzyć w to jedno lub drugie? Jeśli to zależy, od czego to zależy? Jakie są powody, dla których AdaBoost jest mniej / bardziej podatny na nadmierne dopasowanie?
machine-learning
boosting
blubb
źródło
źródło
caret
pakietu do krzyżowej weryfikacji adaboost, i zauważyłem, że zwykle dobrze się uogólnia.Odpowiedzi:
Jak mówisz, wiele zostało omawianych na ten temat, a wraz z nim istnieje dość ciężka teoria, której muszę przyznać, że nigdy nie zrozumiałem w pełni. Z mojego praktycznego doświadczenia AdaBoost jest dość odporny na nadmierne dopasowanie, a LPBoost (Linear Programming Boosting) jeszcze bardziej (ponieważ funkcja celu wymaga rzadkiej kombinacji słabych uczniów, co jest formą kontroli zdolności). Główne czynniki, które wpływają na to:
„Siła” „słabych” uczniów: jeśli korzystasz z bardzo prostych słabych uczniów, takich jak pniaki decyzyjne (drzewa decyzyjne 1-poziomowe), algorytmy są znacznie mniej podatne na nadmierne dopasowanie. Ilekroć próbowałem użyć bardziej skomplikowanych słabych uczniów (takich jak drzewa decyzyjne, a nawet hiperplany), odkryłem, że przeuczenie następuje znacznie szybciej
Poziom hałasu w danych: AdaBoost jest szczególnie podatny na nadmierne dopasowanie w głośnych zestawach danych. W tym ustawieniu preferowane są formularze uregulowane (RegBoost, AdaBoostReg, LPBoost, QPBoost)
Wymiarowość danych: Wiemy, że ogólnie rzecz biorąc, doświadczamy nadmiernego dopasowania w przestrzeniach o dużych wymiarach („przekleństwo wymiarowości”), a AdaBoost może również cierpieć z tego powodu, ponieważ jest to po prostu liniowa kombinacja klasyfikatorów, których sami cierpią z problemu. Trudno ustalić, czy jest on tak podatny, jak inne klasyfikatory.
Oczywiście możesz użyć metod heurystycznych, takich jak zestawy sprawdzania poprawności lubk -fold cross-validation, aby ustawić parametr zatrzymania (lub inne parametry w różnych wariantach), tak jak dla każdego innego klasyfikatora.
źródło
Zgadzam się z większością punktów wymienionych w komentarzu tdc. muszę jednak dodać i poprawić kilka rzeczy.
źródło