Czy istnieje strategia wyboru liczby drzew w GBM? W szczególności, ntrees
argument R
„s gbm
funkcji.
Nie rozumiem, dlaczego nie powinieneś ustawić ntrees
najwyższej rozsądnej wartości. Zauważyłem, że większa liczba drzew wyraźnie zmniejsza zmienność wyników z wielu GBM. Nie sądzę, aby duża liczba drzew prowadziła do nadmiernego dopasowania.
jakieś pomysły?
źródło
To jest przewodnik do przyspieszonych drzew regresji z Elith i wsp .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Bardzo pomocny!
Powinieneś użyć co najmniej 1000 drzew. O ile rozumiem, powinieneś użyć kombinacji szybkości uczenia się, złożoności drzew i liczby drzew, która osiąga minimalny błąd predykcyjny. Mniejsze wartości wskaźnika uczenia się prowadzą do większego ryzyka treningu dla tej samej liczby iteracji, a każda iteracja zmniejsza ryzyko treningu. Jeśli liczba drzew jest wystarczająco duża, ryzyko może zostać dowolnie zmniejszone (patrz: Hastie i in., 2001, „Elementy statystycznego uczenia się, eksploracji danych, wnioskowania i prognozowania” ).
źródło
Jak to często bywa w niektórych algorytmach uczenia maszynowego, doładowanie podlega kompromisowi wariancji odchylenia względem liczby drzew. Mówiąc luźniej, ta kompromis mówi, że: (i) słabe modele mają tendencję do wysokiego odchylenia i niskiej wariancji: są zbyt sztywne, aby uchwycić zmienność w zbiorze danych szkoleniowych, więc też nie będą dobrze działać w zestawie testowym (wysoki test błąd) (ii) bardzo mocne modele mają tendencję do niskiej tendencyjności i dużej zmienności: są zbyt elastyczne i przewyższają zestaw treningowy, więc w zestawie testowym (ponieważ punkty danych różnią się od zestawu treningowego) również nie będą działały dobrze (wysoki błąd testu)
Koncepcja wzmocnienia drzew polega na rozpoczęciu od płytkich drzew (słabych modeli) i dodawaniu kolejnych płytkich drzew, które próbują skorygować osłabienia poprzednich drzew. Podczas wykonywania tego procesu błąd testowy ma tendencję do zmniejszania się (ponieważ ogólny model staje się bardziej elastyczny / wydajny). Jeśli jednak dodasz zbyt wiele tych drzew, zaczniesz przepełniać dane treningowe, a zatem wzrośnie błąd testu. Krzyżowa walidacja pomaga znaleźć najlepsze miejsce
źródło