Rozumiem, że losowy las wybiera losowo zmienne mtry do zbudowania każdego drzewa decyzyjnego. Jeśli więc mtry = ncol / 3, wówczas każda zmienna zostanie użyta średnio w 1/3 drzew. I 2/3 drzew ich nie wykorzysta.
Ale co, jeśli wiem, że jedna zmienna jest prawdopodobnie bardzo ważna, czy dobrze byłoby ręcznie zwiększyć prawdopodobieństwo, że zmienna zostanie wybrana w każdym drzewie? Czy jest to możliwe dzięki pakietowi randomForest w R?
źródło
Od czerwca 2015 r. Nowy obiecujący algorytm RF na R-CRAN o nazwie „ranger” ma tę funkcję. Jest modyfikowany za pomocą, split.select.weights : „Wektor numeryczny o wagach od 0 do 1, reprezentujący prawdopodobieństwo wyboru zmiennych do podziału”.
źródło