tło:
w xgboost z próbach iteracji w celu dopasowania do drzewa w stosunku do wszystkich przykładach minimalizuje obiektywnego:
gdzie są pochodnymi pierwszego i drugiego rzędu w stosunku do naszego poprzedniego najlepszego oszacowania (z iteracji ):r T - 1
i jest naszą funkcją utraty.
Pytanie (wreszcie):
Przy budowie i rozważa Specyfiką k w określonym ułamku, używają następujące heurystyki do oceny tylko niektóre kandydatów dzielone: ich do sortowania wszystkie przykłady przez ich x k , przejść przez listę posortowaną i podsumować ich druga pochodna h I . Rozważają podzielonego kandydata tylko wtedy, gdy suma zmienia się więcej niż ϵ . Dlaczego???
Ustępują mi wyjaśnienia:
Twierdzą, że możemy przepisać poprzednie równanie w następujący sposób:
a ja nie podążam za algebrą - czy możesz pokazać, dlaczego jest równa?
A potem twierdzą, że „to jest dokładnie ważone squared stratę z etykietami i ciężary h ja ” - oświadczenie zgadzam się, ale nie rozumiem, jak to się odnosi do algorytmu Podział kandydata, z których korzystają. ..
Dzięki i przepraszam, jeśli to za długo na tym forum.
Wystarczy dodać część algebraiczną do odpowiedzi @Winks:
Drugie równanie powinno mieć odwrócony znak, jak w:
Podziękowania należą się Yaronowi i Avi z mojego zespołu za wyjaśnienie mi tego.
źródło
Myślę, że to wyjaśnia, dlaczego to działa, ponieważ jest ważonehi
źródło