Jeśli weźmiemy pod uwagę dorosłe drzewo decyzyjne (tj. Drzewo decyzji bez przycinania), ma ono dużą wariancję i niskie odchylenie.
Bagging i losowe lasy używają tych modeli o dużej wariancji i agregują je w celu zmniejszenia wariancji, a tym samym zwiększenia dokładności prognoz. Zarówno Bagging, jak i losowe lasy używają próbkowania Bootstrap, i jak opisano w „Elementach uczenia statystycznego”, zwiększa to stronniczość w pojedynczym drzewie.
Ponadto, ponieważ metoda Random Forest ogranicza dozwolone zmienne do podziału w każdym węźle, obciążenie dla pojedynczego losowego drzewa leśnego jest jeszcze bardziej zwiększone.
Tak więc dokładność prognozowania jest zwiększana tylko wtedy, gdy wzrost obciążenia pojedynczych drzew w Bagging i Losowych Lasach nie „przesłania” redukcji wariancji.
To prowadzi mnie do dwóch następujących pytań: 1) Wiem, że dzięki próbkowaniu bootstrap (prawie zawsze) będziemy mieć takie same obserwacje w próbce bootstrap. Ale dlaczego prowadzi to do wzrostu stronniczości poszczególnych drzew w Bagging / Random Forests? 2) Ponadto, dlaczego ograniczenie dostępnych zmiennych do podziału w każdym podziale prowadzi do większego odchylenia w poszczególnych drzewach w losowych lasach?