Dzięki za bardzo dobre pytanie! Spróbuję za tym oprzeć swoją intuicję.
Aby to zrozumieć, pamiętaj o „składnikach” losowego klasyfikatora leśnego (są pewne modyfikacje, ale jest to ogólny potok):
- Na każdym etapie budowania pojedynczego drzewa znajdujemy najlepszy podział danych
- Podczas budowania drzewa nie używamy całego zestawu danych, ale próbkę ładowania początkowego
- Poszczególne dane wyjściowe drzewa agregujemy przez uśrednienie (w rzeczywistości 2 i 3 oznaczają razem bardziej ogólną procedurę pakowania ).
Załóżmy pierwszy punkt. Nie zawsze jest możliwe znalezienie najlepszego podziału. Na przykład w poniższym zestawie danych każdy podział da dokładnie jeden błędnie sklasyfikowany obiekt.
I myślę, że dokładnie ten punkt może być mylący: w rzeczywistości zachowanie pojedynczego podziału jest w pewien sposób podobne do zachowania klasyfikatora Naive Bayes: jeśli zmienne są zależne - nie ma lepszego podziału dla drzew decyzyjnych, a klasyfikator Naive Bayes również zawodzi (tylko dla przypomnienia: zmienne niezależne są głównym założeniem, które przyjmujemy w klasyfikatorze Naive Bayes; wszystkie inne założenia pochodzą z wybranego przez nas modelu probabilistycznego).
Ale tu pojawia się wielką zaletą drzew decyzyjnych: bierzemy żadnego rozłamu i kontynuować dalszy podział. A dla kolejnych podziałów znajdziemy idealną separację (na czerwono).
A ponieważ nie mamy modelu probabilistycznego, a jedynie podział binarny, nie musimy wcale przyjmować żadnych założeń.
Chodziło o Drzewo decyzyjne, ale dotyczy to także Losowego Lasu. Różnica polega na tym, że w Random Forest używamy Agregacji Bootstrap. Nie ma pod nim żadnego modelu, a jedynym założeniem, na którym się opiera, jest to, że próbkowanie jest reprezentatywne . Ale zwykle jest to powszechne założenie. Na przykład, jeśli jedna klasa składa się z dwóch składników, a w naszym zestawie danych jeden składnik jest reprezentowany przez 100 próbek, a inny składnik jest reprezentowany przez 1 próbkę - prawdopodobnie większość pojedynczych drzew decyzyjnych zobaczy tylko pierwszy składnik, a Losowy Las błędnie sklasyfikuje drugi .
Mam nadzieję, że da to trochę więcej zrozumienia.