Obecnie używam przybornika RF na MATLAB do binarnej klasyfikacji problemu
Zestaw danych: 50000 próbek i ponad 250 funkcji
Jaka powinna być liczba drzew i losowo wybrana funkcja na każdym podziale, aby rosły drzewa? czy jakikolwiek inny parametr może znacząco wpłynąć na wyniki?
Liczba drzew jest większa, tym lepiej. Prawie nie można przekroczyć tego parametru, ale oczywiście górny limit zależy od czasu obliczeniowego, który chcesz spędzić na RF.
Dobrym pomysłem jest utworzenie najpierw długiego lasu, a następnie sprawdzenie (mam nadzieję, że jest on dostępny w implementacji MATLAB), gdy zbieżność dokładności OOB jest zbieżna.
Liczba wypróbowanych atrybutów domyślnie jest pierwiastkiem kwadratowym z całej liczby atrybutów, ale zazwyczaj las nie jest bardzo wrażliwy na wartość tego parametru - w rzeczywistości rzadko jest on optymalizowany, zwłaszcza, że stochastyczny aspekt RF może wprowadzać większe warianty.
źródło
Liczba drzew im większa, tym lepiej: uzgodniona.
Liczba wypróbowanych atrybutów będzie zależeć. Jeśli masz już jakieś a priori na temat sposobu, w jaki informacje się rozprzestrzeniają, czy nie między funkcjami. Jeśli informacje są wspólne dla wielu funkcji, lepsze wyniki przyniosłyby mniejszą wartość tego parametru. Z drugiej strony, jeśli tylko kilka funkcji przenosi informacje, powinieneś użyć większych wartości. Innymi słowy, z wieloma istotnymi zmiennymi: mniejsze wartości są lepsze i z wieloma nieistotnymi zmiennymi: większe wartości są lepsze.
źródło