Zwiększanie drzewa gradientowego, jak zaproponował Friedman, wykorzystuje drzewa decyzyjne jako podstawowych uczniów. Zastanawiam się, czy powinniśmy uczynić podstawowe drzewo decyzyjne tak złożonym, jak to możliwe (w pełni rozwinięte) czy prostszym? Czy istnieje jakieś wyjaśnienie wyboru?
Random Forest to kolejna metoda zespołowa, w której drzewa decyzyjne są podstawowymi uczniami. W oparciu o moje zrozumienie używamy prawie w pełni dojrzałych drzew decyzyjnych w każdej iteracji. Czy mam rację?
Odpowiedzi:
Należy pamiętać, że w przeciwieństwie do wzmocnienia (które jest sekwencyjne), RF rośnie drzewa równolegle .
iterative
Użyty termin jest zatem niewłaściwy.źródło
To pytanie znajduje się w tym bardzo ładnym poście. Proszę spojrzeć na to i odnośniki w nim zawarte. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/
Zauważ w artykule, że mówi o kalibracji, i linki do innego (fajnego) posta na blogu na ten temat. Mimo to uważam, że artykuł Uzyskiwanie skalibrowanych prawdopodobieństw na podstawie doładowania pozwala lepiej zrozumieć, czym jest kalibracja w kontekście wzmocnionych klasyfikatorów i jakie są standardowe metody jej przeprowadzania.
I wreszcie brakuje jednego aspektu (nieco bardziej teoretycznego). Zarówno RF, jak i GBM są metodami złożonymi, co oznacza, że budujesz klasyfikator z dużej liczby mniejszych klasyfikatorów. Podstawowa różnica polega teraz na zastosowanej metodzie:
źródło