Czy jeden gorący wektor powinien być skalowany za pomocą atrybutów numerycznych?

20

W przypadku posiadania kombinacji atrybutów jakościowych i liczbowych zwykle przekształcam atrybuty jakościowe w jeden gorący wektor. Moje pytanie brzmi: czy pozostawiam te wektory bez zmian i skaluję atrybuty numeryczne poprzez standaryzację / normalizację, czy powinienem skalować jeden gorący wektor wraz z atrybutami numerycznymi?

Suresh Kasipandy
źródło

Odpowiedzi:

11

Po przekształceniu do postaci numerycznej modele nie reagują inaczej na kolumny z kodowaniem „na gorąco” niż na inne dane liczbowe. Istnieje więc wyraźny precedens, aby znormalizować wartości {0,1}, jeśli robisz to z jakiegokolwiek powodu, aby przygotować inne kolumny.

Efekt takiego działania będzie zależeć od klasy modelu i rodzaju zastosowanej normalizacji, ale zauważyłem pewne (małe) ulepszenia podczas skalowania do wartości 0, std 1 dla danych kategorialnych zakodowanych na gorąco podczas szkolenia sieci neuronowych.

Może to mieć znaczenie również dla klas modeli opartych na pomiarach odległości.

Niestety, podobnie jak większość tego rodzaju wyborów, często musisz wypróbować oba podejścia i wybrać ten, który ma najlepsze parametry.

Neil Slater
źródło
1
Sformułowanie było trochę niejasne. Czy mówisz, że normalizujesz kolumny zakodowane na gorąco tylko wtedy, gdy znormalizowałeś kolumny inne niż?
Info5ek,
@ Info5ek: mówię, że może być lepiej, aby unormować jeden hot-zakodowane kolumn, a jeśli już to robi dla innych kolumn następnie możesz również spróbować. Nie ma w tym ustalonych reguł, zbyt wiele zależy od danego problemu.
Neil Slater