Każdy wymiar moich funkcji ma inny zakres wartości. Chcę wiedzieć, czy konieczna jest normalizacja tego zestawu danych.
źródło
Każdy wymiar moich funkcji ma inny zakres wartości. Chcę wiedzieć, czy konieczna jest normalizacja tego zestawu danych.
Odpowiedź na twoje pytanie zależy od tego, jakiej funkcji podobieństwa / odległości zamierzasz używać (w SVM). Jeśli jest to prosta (nieważona) odległość euklidesowa, to jeśli nie znormalizujesz swoich danych, nieświadomie nadajesz niektórym cechom większe znaczenie niż inne.
Na przykład, jeśli twój pierwszy wymiar mieści się w zakresie od 0-10, a drugi wymiar od 0-1, różnica 1 w pierwszym wymiarze (zaledwie jedna dziesiąta zakresu) ma tyle samo znaczenia w obliczeniach odległości, co dwie bardzo różne wartości w drugi wymiar (0 i 1). Robiąc to, przesadzasz małe różnice w pierwszym wymiarze. Możesz oczywiście wymyślić niestandardową funkcję odległości lub zważyć swoje wymiary według oceny eksperta, ale doprowadzi to do wielu możliwych do dostosowania parametrów w zależności od wymiarów danych. W takim przypadku normalizacja jest łatwiejszą ścieżką (choć niekoniecznie idealną), ponieważ możesz przynajmniej zacząć.
Wreszcie, nadal w przypadku maszyn SVM, inną rzeczą, którą możesz zrobić, to wymyślić funkcję podobieństwa zamiast funkcji odległości i podłączyć ją jako jądro (technicznie funkcja ta musi generować macierze o dodatniej wartości). Tę funkcję można skonstruować w dowolny sposób i uwzględnić różnicę w zakresie funkcji.
Z drugiej strony w przypadku lasów losowych, ponieważ jedna cecha nigdy nie jest porównywana pod względem wielkości do innych cech, zakresy nie mają znaczenia. Tylko zakres jednej funkcji jest dzielony na każdym etapie.
Losowy las jest niezmienny dla monotonicznych przekształceń poszczególnych cech. Tłumaczenia lub skalowanie według funkcji nie zmieni niczego w Losowym lesie. SVM prawdopodobnie poradzi sobie lepiej, jeśli twoje funkcje mają mniej więcej tę samą wielkość, chyba że wiesz, że niektóre funkcje są znacznie ważniejsze niż inne, w którym to przypadku można mieć większą wielkość.