Definicja parametru min_child_weight w xgboost jest podawana jako:
minimalna suma wagi instancji (hessian) potrzebna dziecku. Jeśli krok partycji drzewa spowoduje utworzenie węzła liścia o sumie wagi instancji mniejszej niż min_child_weight, wówczas proces budowania przerwie dalsze partycjonowanie. W trybie regresji liniowej odpowiada to po prostu minimalnej liczbie wystąpień wymaganych w każdym węźle. Im większy, tym bardziej konserwatywny będzie algorytm.
Przeczytałem sporo rzeczy na temat xgboost, w tym oryginalny artykuł (patrz wzór 8 i ten zaraz po równaniu 9), to pytanie i większość rzeczy związanych z xgboost, które pojawiają się na pierwszych stronach wyszukiwania Google. ;)
Zasadniczo nadal nie jestem szczęśliwy, dlaczego nakładamy ograniczenie na sumę hessianu? Moją jedyną myślą w tej chwili z oryginalnego artykułu jest to, że dotyczy on ważonej sekcji szkicu kwantylu (i przeformułowania z równania 3 ważonej straty kwadratowej), która ma jako „wagę” każdego wystąpienia.
Kolejne pytanie dotyczy tego, dlaczego jest to po prostu liczba wystąpień w trybie regresji liniowej? Myślę, że jest to związane z drugą pochodną sumy równania kwadratów?
źródło