Co oznacza „rozmiar węzła” w Losowym lesie?

20

Nie rozumiem dokładnie, co oznacza rozmiar węzła. Wiem, co to jest węzeł decyzyjny, ale nie wiem, jaki jest rozmiar węzła.

wolfsatthedoor
źródło

Odpowiedzi:

24

Drzewo decyzyjne działa przez rekurencyjną partycję zestawu treningowego. Każdy węzeł drzewa decyzyjnego jest skojarzony z zestawem n t punktów danych ze zbioru treningowego:tnt

n_t jest rozmiarem każdego węzła

Możesz znaleźć parametr nodesizew niektórych losowych pakietach lasów, np. R : To jest minimalny rozmiar węzła , w powyższym przykładzie minimalny rozmiar węzła wynosi 10. Ten parametr domyślnie określa głębokość twoich drzew.

nodesize z losowego pakietu lasu R.

Minimalny rozmiar węzłów końcowych. Zwiększenie tej liczby powoduje wzrost mniejszych drzew (a zatem zajmuje mniej czasu). Zauważ, że wartości domyślne są różne dla klasyfikacji (1) i regresji (5).

W innych pakietach znajduje się parametr depth, np. WEKA :

-depth z losowego pakietu leśnego WEKA

Maksymalna głębokość drzew, 0 dla nieograniczonej. (domyślnie 0)

Simone
źródło
1
Co to są „rekordy”? Masz na myśli punkty danych? Dlaczego każdy węzeł jest powiązany z zestawem rekordów? Rozumiem losowe lasy całkiem dobrze, ale nie wiem, co oznacza żargon.
wolfsatthedoor
Tak, miałem na myśli punkt danych. Zazwyczaj punkty danych można nazywać rekordami, instancjami lub przykładami.
Simone,
Czy istnieje reguła praktyczna minimalnego rozmiaru węzła, aby uniknąć nadmiernego dopasowania drzew? Wyobrażam sobie, że zależy to od wielkości danych szkoleniowych, więc może pewna część wielkości zbioru danych?
Seanosapien
1
W losowych lasach drzewa są w pełni wyhodowane: wielkość węzła wynosi 1. Unika się przeuczenia, aby wyhodować wiele drzew. W drzewie decyzyjnym jest to trudniejsze. Drzewa nie są w pełni wyhodowane i trzeba wykonać przycinanie, aby uniknąć nadmiernego dopasowania.
Simone,
1
Wygląda na to, że winnowing to rodzaj wyboru funkcji, który upraszcza drzewo i pozwala uniknąć nadmiernego dopasowania. Przycinanie pojedynczego drzewa jest zawsze korzystne. Zamiast tego wietrzenie może czasem zmniejszyć dokładność, ale upraszcza drzewo.
Simone
2

Nie jest jasne, czy rozmiar węzła dotyczy próbkowania „w torbie” czy błędu „poza torbą”. Jeśli chodzi o próbkowanie „poza torbą”, jest nieco bardziej restrykcyjne.

Mroczny rycerz
źródło