Zmienne znaczenie losowe Najmniejsze wartości ujemne

10

Zadaję sobie pytanie, czy dobrym pomysłem jest usunięcie tych zmiennych o ujemnej wartości ważności zmiennej („% IncMSE”) w kontekście regresji. A jeśli da mi to lepsze prognozy? Co myślisz?

Giuseppe
źródło

Odpowiedzi:

5

Zmienne znaczenie w losowym lesie oblicza się w następujący sposób:

  1. Początkowo MSE modelu jest obliczane na podstawie oryginalnych zmiennych
  2. Następnie wartości jednej kolumny są permutowane i MSE jest ponownie obliczany. Na przykład jeśli kolumna (Kol1) przyjmuje wartości 1,2,3,4, a losowa permutacja wartości daje 4,3,1,2. Powoduje to MSE1. Następnie wzrost MSE, tj. MSE1 - MSE, oznaczałby znaczenie zmiennej.

  3. Oczekujemy, że różnica będzie dodatnia, ale w przypadku liczby ujemnej oznacza to, że losowa permutacja działała lepiej. Można wywnioskować, że zmienna nie odgrywa roli w przewidywaniu, tj. Nie jest ważna.

Mam nadzieję że to pomoże!

Dokładne wyjaśnienie znajduje się pod poniższym linkiem!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean

Amol Modi
źródło
3

Może to być tylko przypadkowa fluktuacja (na przykład, jeśli masz małe drzewo).

Jeśli nie, może to oznaczać, że masz w danych poważną paradoksy, tj. Pary obiektów z prawie identycznymi predyktorami i bardzo różnym wynikiem. W takim przypadku sprawdziłbym dwa razy, czy model rzeczywiście ma sens i zacząłem zastanawiać się, jak uzyskać więcej atrybutów, aby je rozwiązać.


źródło
2
Czy mógłbyś bardziej szczegółowo rozwinąć „paradoksy danych”? Nie do końca śledziłem i chciałbym zrozumieć, co wyjaśniacie.
JEquihua