Uruchomiłem model xgboost. Nie wiem dokładnie, jak interpretować wynik xgb.importance
.
Jakie jest znaczenie wzmocnienia, ochrony i częstotliwości i jak je interpretujemy?
Co również oznaczają Split, RealCover i RealCover%? Mam tutaj dodatkowe parametry
Czy są jakieś inne parametry, które mogą powiedzieć mi więcej o importach funkcji?
Z dokumentacji R wynika, że rozumiem, że wzmocnienie jest czymś podobnym do wzmocnienia informacji, a częstotliwość to liczba przypadków użycia funkcji we wszystkich drzewach. Nie mam pojęcia, co to jest Cover.
Uruchomiłem przykładowy kod podany w łączu (i próbowałem zrobić to samo w przypadku problemu, nad którym pracuję), ale podana tam definicja podziału nie była zgodna z obliczonymi przeze mnie liczbami.
importance_matrix
Wydajność:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05
źródło
Dzięki Sandeep za szczegółową odpowiedź. Chciałbym poprawić, aby pokrycie było obliczane dla wszystkich podziałów, a nie tylko węzłów liści.
Przejdźmy przez prosty przykład z danymi dostarczonymi przez bibliotekę xgboost.
Wyjście -
Spróbujmy obliczyć pokrycie zapachu = brak w macierzy ważności (0,495768965) ze zrzutu drzewa.
Pokrycie każdego podziału, w którym stosowany jest zapach = brak, to 1628.2500 dla ID węzła 0-0 i 765,9390 dla ID węzła 1-1.
Całkowite pokrycie wszystkich podziałów (sumowanie w kolumnie okładki w usypie drzewa) = 1628.2500 * 2 + 786,3720 * 2
Pokrycie zapachu = brak w matrycy ważności = (1628.2500 + 765,9390) / (1628.2500 * 2 + 786,3720 * 2)
Dlatego jesteśmy pewni, że pokrycie jest obliczane dla wszystkich podziałów!
źródło