W jakich implementacjach wymagane jest skalowanie zmiennych (cech) i normalizacja (strojenie) zmiennych (cech)

W wielu algorytmach uczenia maszynowego skalowanie funkcji (inaczej skalowanie zmiennych, normalizacja) jest częstym krokiem wstępnego przetwarzania Wikipedia - Skalowanie funkcji - to pytanie było blisko Pytanie nr 41704 - Jak i dlaczego działa normalizacja i skalowanie funkcji?

Mam dwa pytania dotyczące drzew decyzyjnych:

Czy są jakieś implementacje drzewa decyzyjnego, które wymagałyby skalowania funkcji? Mam wrażenie, że kryteria podziału większości algorytmów są obojętne na skalę.
Rozważ te zmienne: (1) Jednostki, (2) Godziny, (3) Jednostki na godzinę - czy najlepiej pozostawić te trzy zmienne „takie, jakie są” po wprowadzeniu do drzewa decyzyjnego, czy też napotkamy jakiś konflikt skoro „znormalizowana” zmienna (3) jest powiązana z (1) i (2)? To znaczy, czy zaatakowałbyś tę sytuację, wrzucając wszystkie trzy zmienne do miksu, czy zazwyczaj wybierałbyś kombinację tych trzech lub po prostu używałbyś funkcji „znormalizowanej / znormalizowanej” (3)?

machine-learning feature-selection cart JasonAizkalns
źródło

Odpowiedzi:

W przypadku 1 drzewa decyzyjne zwykle nie wymagają skalowania. Jednak pomaga w wizualizacji / manipulacji danymi i może być przydatny, jeśli zamierzasz porównać wydajność z innymi danymi lub innymi metodami, takimi jak SVM.

W przypadku 2 jest to kwestia strojenia. Jednostki / godzinę można uznać za rodzaj interakcji zmiennych i mogą mieć moc predykcyjną różną od każdej z osobna. To zależy jednak od twoich danych. Spróbowałbym zi bez, aby zobaczyć, czy jest jakaś różnica.

wwwslinger
źródło