Losowy Las nie może się przewyższyć?

10

Czytałem literaturę, że losowe lasy nie mogą się przewyższyć. Chociaż brzmi to świetnie, wydaje się zbyt piękne, aby mogło być prawdziwe. Czy jest możliwe, aby rf się przebiły?

screechOwl
źródło
5
Jeśli się zmieści, może się przełożyć. Jeśli chodzi o RF, zastanów się, co się stanie, jeśli twój las nie zawiera wystarczającej liczby drzew (powiedz, że twój las jest pojedynczym drzewem, aby efekt był oczywisty). Jest więcej problemów niż ten, ale jest to najbardziej oczywiste.
Marc Claesen,
Właśnie odpowiedziałem na inny wątek na temat częstotliwości radiowych, który mógłby łatwo się przewyższyć, jeśli liczba predyktorów jest duża.
horaceT

Odpowiedzi:

7

Losowy las może się pokrywać. Jestem tego pewien. Zazwyczaj oznacza to, że model nie będzie pasował, jeśli użyjesz większej liczby drzew.

y=losol(x)+ϵ

Donbeo
źródło
Losowy Las przede wszystkim zmniejsza wariancję, jak może się on nakładać? @Donbeo może być może dlatego, że modele drzew decyzyjnych nie działają dobrze przy ekstrapolacji. Powiedzmy, że dla anomalnej zmiennej predykcyjnej DT może dawać złe prognozy.
Itachi
Jednym wyraźnym sygnałem nadmiernego dopasowania jest to, że wariancja resztkowa jest zbytnio zmniejszana . Co zatem próbujesz zasugerować swoją pierwszą uwagą?
whuber
W kompromisie wariancji odchylenia, kiedy staramy się zmniejszyć odchylenie, kompensujemy wariancję. Tak, że jeśli x = 80 daje y = 100, ale x = 81 daje y = -100. To byłoby zbyt dobre . Nie jest nadmiernie dopasowane do posiadania dużej wariancji. @ Whuber przypuszczałem, że nadmierne dopasowanie wynika wyłącznie z dużej wariancji. Nie rozumiem, w jaki sposób zmniejszenie resztkowej wariancji powoduje przeregulowanie. Czy możesz podzielić się ze mną papierkiem do przeczytania.
Itachi
2
xja=1,2),,10yjay=β0+β1x+β2)x2)++βkxkk=0,1,,9
1
@Davide Twoja uwaga pokazuje, że powinienem wyraźnie stwierdzić, że podałem mój przykład nie jako stwierdzenie o losowych lasach, ale o podstawowe koncepcje redukcji wariancji i nadmiernego dopasowania. Ale twój pierwszy komentarz jest nieprzejrzysty, ponieważ jest nieistotny (i, jak go czytam, jest niepoprawny): wariancja resztkowa ma znaczenie w tej sekwencji modeli OLS, a nie wariancja prognostyczna. Rzeczywiście - powracając do ogólnego pytania o dopasowanie modeli - jeśli celem byłoby zmniejszenie wariancji prognoz, wówczas każdy model, który zawsze przewiduje zero, byłby optymalny!
whuber