Czy losowy las wymaga skalowania lub wyśrodkowania zmiennych wejściowych?

16

Moje zmienne wejściowe mają różne wymiary. Niektóre zmienne są dziesiętne, a niektóre setne. Czy konieczne jest wyśrodkowanie (odjęcie średniej) lub skalowanie (podzielenie przez odchylenie standardowe) tych zmiennych wejściowych, aby dane były bezwymiarowe podczas korzystania z losowego lasu?

YQ.Wang
źródło

Odpowiedzi:

30

Nie.

Lasy losowe są oparte na algorytmach podziału drzewa.

Jako taki, nie ma analogii do współczynnika uzyskiwanego w ogólnych strategiach regresji, który byłby zależny od jednostek zmiennych niezależnych. Zamiast tego uzyskuje się zbiór reguł partycji, w zasadzie decyzję o progu, i to nie powinno się zmieniać wraz ze skalowaniem. Innymi słowy, drzewa widzą tylko rangi w cechach.

Zasadniczo każda monotoniczna transformacja danych nie powinna w ogóle zmieniać lasu (w najczęstszych implementacjach).

Ponadto drzewa decyzyjne są zwykle odporne na niestabilności numeryczne, które czasami pogarszają zbieżność i precyzję innych algorytmów.

Firebug
źródło
0

Ogólnie zgadzam się z Firebug, ale może być pewna wartość w standaryzacji zmiennych, jeśli interesują cię oceny ważności predyktorów. RF będzie sprzyjać bardzo zmiennym predyktorom ciągłym, ponieważ istnieją większe możliwości podziału danych na partycje. Lepszym sposobem na poradzenie sobie z tym problemem jest jednak stosowanie określonych podejść (tj. Pobieranie próbek bez zastępowania przy użyciu lasów warunkowych), które są bardziej odporne na to nastawienie. Zobacz https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25

JWB1987
źródło
1
Witamy na stronie. Staramy się zbudować stałe repozytorium wysokiej jakości informacji statystycznych w formie pytań i odpowiedzi. Dlatego też obawiamy się odpowiedzi typu „tylko link” z powodu linkrot. Czy możesz zamieścić pełny cytat i podsumowanie informacji pod linkiem, na wypadek gdyby zgasły?
gung - Przywróć Monikę