Czym skrajny losowy las różni się od losowego lasu?

18

Czy ER jest bardziej wydajne w realizacji (może Extreme Gradient Boostingto być zwiększenie gradientu) - czy różnica jest ważna z praktycznego punktu widzenia? Istnieje pakiet R, który je implementuje. Czy to nowy algorytm, który pokonuje implementację „ogólną” (pakiet RandomForest od R) nie tylko pod względem wydajności, czy też w niektórych innych obszarach?

Extreme Random Forest http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

Qbik
źródło

Odpowiedzi:

20

Jest to dość proste - RF optymalizuje podziały na drzewach (tj. Wybiera te, które dają najlepszy zysk informacji w odniesieniu do decyzji), a ERF czyni je losowo. Teraz,

  • optymalizacja kosztuje (niewiele, ale nadal), więc ERF jest zwykle szybszy.
  • optymalizacja może przyczynić się do korelacji drzew w zbiorowym lub całkowitym nadmiernym dopasowaniu, więc ERF są prawdopodobnie bardziej niezawodne, szczególnie jeśli sygnał jest słaby.

Idąc jeszcze dalej w tym kierunku, możesz zyskać dodatkową prędkość, wyrównując podziały na każdym poziomie drzewa, w ten sposób przekształcając drzewa w paprocie , które są również dość interesujące; istnieje moja implementacja takiej osoby.


źródło
Ten link jest zepsuty, użyj CVLAB: Paprocie
smci
Podejrzewam, że drzewa utworzone przez ERF są znacznie większe niż drzewa RF, ponieważ RF wykorzystuje optymalizację, która kompresuje wiedzę z zestawu danych do mniejszych drzew
Qbik