Myślę, że w oryginalnym artykule sugerują użycie ), ale tak czy inaczej, pomysł jest następujący:log2)( N+ 1
Liczba losowo wybranych cech może wpływać na błąd uogólnienia na dwa sposoby: wybranie wielu cech zwiększa siłę poszczególnych drzew, natomiast zmniejszenie liczby cech prowadzi do niższej korelacji między drzewami, zwiększając siłę lasu jako całości.
Co ciekawe, autorzy Random Forests (pdf) znajdują empiryczną różnicę między klasyfikacją a regresją:
Interesującą różnicą między regresją a klasyfikacją jest to, że korelacja rośnie dość powoli wraz ze wzrostem liczby używanych funkcji.
N/3N−−√
N−−√logN
Zakres pośredni jest zwykle duży. W tym zakresie wraz ze wzrostem liczby funkcji korelacja wzrasta, ale PE * (drzewo) kompensuje zmniejszanie.
(PE * jest błędem generalizacji)
Jak mówią w elementach uczenia statystycznego:
W praktyce najlepsze wartości tych parametrów będą zależeć od problemu i należy je traktować jako parametry strojenia.
Problem może zależeć od liczby zmiennych kategorycznych. Jeśli masz wiele zmiennych kategorialnych zakodowanych jako zmienne zastępcze, zwykle warto zwiększyć parametr. Ponownie z gazety Random Forests:
int(log2M+1)