Uczenie się w zespole: dlaczego układanie modeli jest skuteczne?

Ostatnio zainteresowałem się układaniem modeli jako formą uczenia się w zespole. W szczególności trochę eksperymentowałem z niektórymi zestawami danych zabawek na problemy z regresją. Zasadniczo wdrożyłem indywidualne regresory „poziomu 0”, zapisałem prognozy wyjściowe każdego regresora jako nową funkcję dla „meta-regresora”, który należy wziąć za swój wkład, i dopasowałem ten meta-regresor do tych nowych funkcji (prognozy z poziomu 0 regresorów). Byłem bardzo zaskoczony, widząc nawet niewielką poprawę w stosunku do poszczególnych regresorów podczas testowania meta-regresora w stosunku do zestawu walidacyjnego.

Oto moje pytanie: dlaczego układanie modeli jest skuteczne? Intuicyjnie oczekiwałbym, że model wykonujący układanie będzie działał słabo, ponieważ wydaje się, że ma zubożałą reprezentację cech w porównaniu do każdego z modeli poziomu 0. Oznacza to, że jeśli wyszkolę 3 regresory poziomu 0 w zestawie danych z 20 funkcjami i wykorzystam prognozy regresorów poziomu 0 jako dane wejściowe do mojego meta-regresora, oznacza to, że mój meta-regresor ma tylko 3 funkcje do nauki. Wydaje się, że w 20 oryginalnych funkcjach jest więcej informacji zakodowanych przez regresory poziomu 0 do treningu niż 3 funkcje wyjściowe, których meta-regresor używa do treningu.

machine-learning ensemble stacking kylerthecreator
źródło

Odpowiedzi:

Pomyśl o złożeniu jako zasadniczo wykorzystaniu centralnego twierdzenia o granicy.

Twierdzenie o limicie centralnym luźno mówi, że wraz ze wzrostem wielkości próby średnia próbki stanie się coraz bardziej dokładnym oszacowaniem rzeczywistej lokalizacji średniej populacji (zakładając, że jest to statystyka, na którą patrzysz), a wariancja zostanie zaostrzona .

Jeśli masz jeden model, który daje jedną prognozę dla zmiennej zależnej, ta prognoza będzie prawdopodobnie do pewnego stopnia wysoka lub niska. Ale jeśli masz 3, 5 lub 10 różnych modeli, które wytwarzają różne prognozy, dla każdej danej obserwacji wysokie prognozy z niektórych modeli będą miały tendencję do kompensowania niskich błędów z innych modeli, a efektem netto będzie zbieżność średniej (lub inna kombinacja) prognoz dotyczących „prawdy”. Nie przy każdej obserwacji, ale ogólnie taka jest tendencja. Tak więc ogólnie zespół przewyższy najlepszy pojedynczy model.

Doug Dame
źródło