Dlaczego spakowane drzewo / losowe drzewo leśne ma większe odchylenie niż pojedyncze drzewo decyzyjne?

11

Jeśli weźmiemy pod uwagę dorosłe drzewo decyzyjne (tj. Drzewo decyzji bez przycinania), ma ono dużą wariancję i niskie odchylenie.

Bagging i losowe lasy używają tych modeli o dużej wariancji i agregują je w celu zmniejszenia wariancji, a tym samym zwiększenia dokładności prognoz. Zarówno Bagging, jak i losowe lasy używają próbkowania Bootstrap, i jak opisano w „Elementach uczenia statystycznego”, zwiększa to stronniczość w pojedynczym drzewie.

Ponadto, ponieważ metoda Random Forest ogranicza dozwolone zmienne do podziału w każdym węźle, obciążenie dla pojedynczego losowego drzewa leśnego jest jeszcze bardziej zwiększone.

Tak więc dokładność prognozowania jest zwiększana tylko wtedy, gdy wzrost obciążenia pojedynczych drzew w Bagging i Losowych Lasach nie „przesłania” redukcji wariancji.

To prowadzi mnie do dwóch następujących pytań: 1) Wiem, że dzięki próbkowaniu bootstrap (prawie zawsze) będziemy mieć takie same obserwacje w próbce bootstrap. Ale dlaczego prowadzi to do wzrostu stronniczości poszczególnych drzew w Bagging / Random Forests? 2) Ponadto, dlaczego ograniczenie dostępnych zmiennych do podziału w każdym podziale prowadzi do większego odchylenia w poszczególnych drzewach w losowych lasach?

C. Refsgaard
źródło

Odpowiedzi:

5

Przyjmę odpowiedź na 1) od Kunlun, ale aby zamknąć tę sprawę, przedstawię tutaj wnioski dotyczące dwóch pytań, do których doszedłem w mojej pracy magisterskiej (które zostały zaakceptowane przez mojego promotora):

1) Więcej danych daje lepsze modele, a ponieważ używamy tylko części danych treningowych do trenowania modelu (bootstrap), w każdym drzewie występuje większe odchylenie (Kopiuj z odpowiedzi Kunlun)

2) W algorytmie Losowe lasy ograniczamy liczbę zmiennych do podziału w każdym podziale - tzn. Ograniczamy liczbę zmiennych w celu wyjaśnienia naszych danych. Ponownie, wyższe odchylenie występuje w każdym drzewie.

Wniosek: Obie sytuacje ograniczają naszą zdolność do wyjaśniania populacji: najpierw ograniczamy liczbę obserwacji, a następnie ograniczamy liczbę zmiennych do podziału w każdym podziale. Oba ograniczenia prowadzą do większego odchylenia w każdym drzewie, ale często zmniejszenie wariancji w modelu przyćmiewa wzrost obciążenia w każdym drzewie, a zatem Bagging i losowe lasy mają tendencję do tworzenia lepszego modelu niż tylko jedno drzewo decyzyjne.

C. Refsgaard
źródło
-1

Twoje pytania są dość proste. 1) Więcej danych daje lepszy model, ponieważ używasz tylko części danych treningowych do trenowania swojego modelu (bootstrap), wyższe odchylenie jest uzasadnione. 2) Więcej podziałów oznacza głębsze drzewa lub czystsze węzły. Zwykle prowadzi to do dużej wariancji i niskiego odchylenia. Jeśli ograniczysz podział, niższą wariancję i wyższe odchylenie.

Kunlun
źródło
4
Nie do końca kupuję argument za 1), ponieważ każda próbka ładowania początkowego jest równie prawdopodobna, a stronniczość dotyczy zachowania przeciętnego modelu. Wygląda na to, że to musi być bardziej subtelne. Myślę też, że 2) nie odpowiada na zadane pytanie. Plakat nie oznacza „ograniczania podziałów”, jak w przypadku „rosnących płytszych drzew”.
Matthew Drury