Metody grupowania (takie jak losowe lasy) wymagają pewnego elementu zmienności w zestawach danych, na których hodowane są poszczególne podstawowe klasyfikatory (w przeciwnym razie losowe lasy skończyłyby się lasem drzew, które są zbyt podobne). Ponieważ drzewa decyzyjne są bardzo wrażliwe na obserwacje w zestawie treningowym, zróżnicowanie obserwacji (za pomocą bootstrap) było, jak sądzę, naturalnym podejściem do uzyskania wymaganej różnorodności. Oczywistą alternatywą jest różnicowanie używanych funkcji, np. Trenowanie każdego drzewa na podzbiorze oryginalnych funkcji. Użycie próbek bootstrap pozwala nam także oszacować poziom błędu i zmienne znaczenie błędu „out-of-bag” (OOB).
2 jest zasadniczo innym sposobem na wstrzyknięcie losowości do lasu. Wpływa również na zmniejszenie korelacji między drzewami (poprzez zastosowanie niskiej wartości mtry), przy czym kompromisem jest (potencjalnie) pogorszenie mocy predykcyjnej. Użycie zbyt dużej wartości mtry spowoduje, że drzewa będą coraz bardziej do siebie podobne (aw skrajnym przypadku skończy się to workowaniem)
Uważam, że powodem nie przycinania jest bardziej fakt, że nie jest to konieczne niż cokolwiek innego. Z jednym drzewem decyzyjnym zwykle przycinasz je, ponieważ jest ono bardzo podatne na nadmierne dopasowanie. Jednak za pomocą próbek bootstrap i uprawy wielu drzew losowe lasy mogą wyhodować drzewa, które są indywidualnie silne, ale nie są szczególnie skorelowane ze sobą. Zasadniczo poszczególne drzewa są przeładowane, ale pod warunkiem, że ich błędy nie są skorelowane, las powinien być dość dokładny.
Powód, dla którego działa dobrze, jest podobny do twierdzenia jury Condorceta (i logiki stojącej za metodami takimi jak wzmocnienie). Zasadniczo masz wielu słabych uczniów, którzy muszą tylko odrobinę lepiej niż przypadkowe zgadywanie. Jeśli to prawda, możesz dodawać słabych uczniów, a na granicy uzyskać doskonałe prognozy ze swojego zespołu. Oczywiście jest to ograniczone ze względu na błędy korelacji uczniów, co uniemożliwia poprawę wydajności zespołu.