% IncMSE to najsolidniejszy i najbardziej miarodajny środek. Jest to wzrost liczby przewidywań (szacowanych za pomocą CV po wyjęciu z worka) w wyniku permutacji zmiennej j (wartości losowo losowane).
- rośnie las regresji. Oblicz OOB-mse, nazwij to mse0.
- dla 1 do j var: permute wartości kolumny j, następnie przewiduj i oblicz OOB-mse (j)
- % IncMSE z j'th to (mse (j) -mse0) / mse0 * 100%
im wyższa liczba, tym ważniejsze
IncNodePurity odnosi się do funkcji straty, która według najlepszych podziałów jest wybierana. Funkcja strat jest mse dla regresji i gini-zanieczyszczenia dla klasyfikacji. Bardziej użyteczne zmienne osiągają wyższy wzrost czystości węzłów, to znaczy znaleźć podział, który ma wysoką „wariancję” między węzłami i małą „wariancję” między węzłami. IncNodePurity jest stronniczy i należy go stosować tylko wtedy, gdy dodatkowy czas obliczania% IncMSE jest nie do przyjęcia. Ponieważ obliczenie% IncMSE zajmuje tylko ~ 5-25% dodatkowego czasu, prawie nigdy by się to nie zdarzyło.
Podobne pytanie i odpowiedź
Soren Havelund Welling
źródło