Czy w losowym lesie większy% IncMSE jest lepszy czy gorszy?

17

Po zbudowaniu losowego modelu lasu (regresyjnego) w R wywołanie rf$importancezapewnia mi dwie miary dla każdej zmiennej predykcyjnej %IncMSEoraz IncNodePurity. Czy interpretacja, że ​​zmienne predykcyjne o mniejszych %IncMSEwartościach są ważniejsze niż zmienne predykcyjne o większych %IncMSEwartościach?

Co powiesz na IncNodePurity?

derNincompoop
źródło

Odpowiedzi:

30

% IncMSE to najsolidniejszy i najbardziej miarodajny środek. Jest to wzrost liczby przewidywań (szacowanych za pomocą CV po wyjęciu z worka) w wyniku permutacji zmiennej j (wartości losowo losowane).

  1. rośnie las regresji. Oblicz OOB-mse, nazwij to mse0.
  2. dla 1 do j var: permute wartości kolumny j, następnie przewiduj i oblicz OOB-mse (j)
  3. % IncMSE z j'th to (mse (j) -mse0) / mse0 * 100%

im wyższa liczba, tym ważniejsze

IncNodePurity odnosi się do funkcji straty, która według najlepszych podziałów jest wybierana. Funkcja strat jest mse dla regresji i gini-zanieczyszczenia dla klasyfikacji. Bardziej użyteczne zmienne osiągają wyższy wzrost czystości węzłów, to znaczy znaleźć podział, który ma wysoką „wariancję” między węzłami i małą „wariancję” między węzłami. IncNodePurity jest stronniczy i należy go stosować tylko wtedy, gdy dodatkowy czas obliczania% IncMSE jest nie do przyjęcia. Ponieważ obliczenie% IncMSE zajmuje tylko ~ 5-25% dodatkowego czasu, prawie nigdy by się to nie zdarzyło.

Podobne pytanie i odpowiedź

Soren Havelund Welling
źródło