Zadaję sobie pytanie, czy dobrym pomysłem jest usunięcie tych zmiennych o ujemnej wartości ważności zmiennej („% IncMSE”) w kontekście regresji. A jeśli da mi to lepsze prognozy? Co myślisz?
Zadaję sobie pytanie, czy dobrym pomysłem jest usunięcie tych zmiennych o ujemnej wartości ważności zmiennej („% IncMSE”) w kontekście regresji. A jeśli da mi to lepsze prognozy? Co myślisz?
Zmienne znaczenie w losowym lesie oblicza się w następujący sposób:
Następnie wartości jednej kolumny są permutowane i MSE jest ponownie obliczany. Na przykład jeśli kolumna (Kol1) przyjmuje wartości 1,2,3,4, a losowa permutacja wartości daje 4,3,1,2. Powoduje to MSE1. Następnie wzrost MSE, tj. MSE1 - MSE, oznaczałby znaczenie zmiennej.
Oczekujemy, że różnica będzie dodatnia, ale w przypadku liczby ujemnej oznacza to, że losowa permutacja działała lepiej. Można wywnioskować, że zmienna nie odgrywa roli w przewidywaniu, tj. Nie jest ważna.
Mam nadzieję że to pomoże!
Dokładne wyjaśnienie znajduje się pod poniższym linkiem!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
Może to być tylko przypadkowa fluktuacja (na przykład, jeśli masz małe drzewo).
Jeśli nie, może to oznaczać, że masz w danych poważną paradoksy, tj. Pary obiektów z prawie identycznymi predyktorami i bardzo różnym wynikiem. W takim przypadku sprawdziłbym dwa razy, czy model rzeczywiście ma sens i zacząłem zastanawiać się, jak uzyskać więcej atrybutów, aby je rozwiązać.